伊人色小姐,黄色视频在线观看免费传媒,亚洲一区中文字幕

根據(jù)此訓(xùn)練得出隱馬爾科夫模型，用維特比算法實現(xiàn)了一個簡單的拼音輸入法。

原理簡介

隱馬爾科夫模型

抄一段網(wǎng)上的定義：

隱馬爾可夫模型 (Hidden Markov Model) 是一種統(tǒng)計模型，用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。其難點是從可觀察的參數(shù)中確定該過程的隱含參數(shù)，然后利用這些參數(shù)來作進(jìn)一步的分析。

拼音輸入法中可觀察的參數(shù)就是拼音，隱含的參數(shù)就是對應(yīng)的漢字。

viterbi算法

維特比算法，思想是動態(tài)規(guī)劃，代碼比較簡單就不贅述。

代碼解釋

model定義

代碼見model/table.py文件，針對隱馬爾科夫的三個概率矩陣，分別設(shè)計了三個數(shù)據(jù)表存儲。這樣的好處很明顯，漢字的轉(zhuǎn)移概率矩陣是一個非常大的稀疏矩陣，直接文件存儲占用空間很大，并且加載的時候也只能一次性讀入內(nèi)存，不僅內(nèi)存占用高而且加載速度慢。此外數(shù)據(jù)庫的join操作非常方便viterbi算法中的概率計算。

數(shù)據(jù)表定義如下：

classTransition(BaseModel):

__tablename__='transition'

id=Column(Integer,primary_key=True)

previous=Column(String(1),nullable=False)

behind=Column(String(1),nullable=False)

probability=Column(Float,nullable=False)

classEmission(BaseModel):

__tablename__='emission'

id=Column(Integer,primary_key=True)

character=Column(String(1),nullable=False)

pinyin=Column(String(7),nullable=False)

probability=Column(Float,nullable=False)

classStarting(BaseModel):

__tablename__='starting'

id=Column(Integer,primary_key=True)

character=Column(String(1),nullable=False)

probability=Column(Float,nullable=False)

模型生成

代碼見train/main.py文件，里面的initstarting，initemission，init_transition分別對應(yīng)于生成隱馬爾科夫模型中的初始概率矩陣，發(fā)射概率矩陣，轉(zhuǎn)移概率矩陣，并把生成的結(jié)果寫入sqlite文件中。訓(xùn)練用到的數(shù)據(jù)集是結(jié)巴分詞里的詞庫，因為沒有訓(xùn)練長句子，最后運行的結(jié)果也證明只能適用于短句輸入。

初始概率矩陣

統(tǒng)計初始化概率矩陣，就是找出所有出現(xiàn)在詞首的漢字，并統(tǒng)計它們出現(xiàn)在詞首的次數(shù)，最后根據(jù)上述數(shù)據(jù)算出這些漢字出現(xiàn)在詞首的概率，沒統(tǒng)計的漢字就認(rèn)為出現(xiàn)在詞首的概率是0，不寫入數(shù)據(jù)庫。有一點注意的是為了防止概率計算的時候因為越算越小導(dǎo)致計算機無法比較，所有的概率都進(jìn)行了自然對數(shù)運算。統(tǒng)計的結(jié)果如下：

轉(zhuǎn)移概率矩陣

此處用到的是最簡單的一階隱馬爾科夫模型，即認(rèn)為在一個句子里，每個漢字的出現(xiàn)只和它前面的的一個漢字有關(guān)，雖然簡單粗暴，但已經(jīng)可以滿足大部分情況。統(tǒng)計的過程就是找出字典中每個漢字后面出現(xiàn)的漢字集合，并統(tǒng)計概率。因為這個概率矩陣非常的大，逐條數(shù)據(jù)寫入數(shù)據(jù)庫過慢，后續(xù)可以優(yōu)化為批量寫入，提高訓(xùn)練效率。結(jié)果如下：

上圖展示的一后面出現(xiàn)概率最高的十個字，也挺符合日常習(xí)慣。

發(fā)射概率矩陣

通俗點就是統(tǒng)計每個漢字對應(yīng)的拼音以及在日常情況下的使用概率，已暴舉例，它有兩個讀音：bao和pu，難點就是找bao和pu出現(xiàn)的概率。此處統(tǒng)計用到了pypinyin模塊，把字典中的短語轉(zhuǎn)換為拼音后進(jìn)行概率統(tǒng)計，但是某些地方讀音也不完全正確，最后運行的輸入法會出現(xiàn)和拼音不匹配的結(jié)果。統(tǒng)計結(jié)果如下：

viterbi實現(xiàn)

代碼建input_method/viterbi.py文件，此處會找到最多十個局部最優(yōu)解，注意是十個局部最優(yōu)解而不是十個全局最優(yōu)解，但是這十個解中最優(yōu)的那個是全局最優(yōu)解，代碼如下：

def viterbi(pinyin_list):

"""

viterbi算法實現(xiàn)輸入法

Aargs:

pinyin_list (list): 拼音列表

"""

start_char=Emission.join_starting(pinyin_list[0])

V={char:probforchar,probinstart_char}

foriinrange(1,len(pinyin_list)):

pinyin=pinyin_list[i]

prob_map={}

forphrase,probinV.iteritems():

character=phrase[-1]

result=Transition.join_emission(pinyin,character)

ifnotresult:

continue

state,new_prob=result

prob_map[phrase+state]=new_prob+prob

ifprob_map:

V=prob_map

else:

returnV

結(jié)果展示

運行input_method/viterbi.py文件，簡單的展示一下運行結(jié)果：

問題統(tǒng)計：

統(tǒng)計字典生成轉(zhuǎn)移矩陣寫入數(shù)據(jù)庫的速度太慢，運行一次要將近十分鐘。

發(fā)射概率矩陣數(shù)據(jù)不準(zhǔn)確，總有一些漢字的拼音不匹配。

訓(xùn)練集太小，實現(xiàn)的輸入法不適用于長句子。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

python

python

+關(guān)注

關(guān)注
56

文章
4825

瀏覽量
86178
隱馬爾科夫模型

隱馬爾科夫模型

+關(guān)注

關(guān)注
0

文章
4

瀏覽量
1380

原文標(biāo)題：隱馬爾科夫模型 python 實現(xiàn)簡單拼音輸入法

文章出處：【微信號：magedu-Linux，微信公眾號：馬哥Linux運維】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

如何用隱馬爾可夫模型實現(xiàn)中文拼音輸入

原理簡介

評論