資料介紹
在基于實(shí)例的機(jī)器翻譯中,句子相似度計(jì)算是實(shí)例匹配的有效機(jī)制。該文對(duì)基于相同詞的句子相似模型作進(jìn)一步的改進(jìn),包括關(guān)鍵詞抽取,以及在句子相似度的定義中引入同義詞的情形。實(shí)驗(yàn)結(jié)果表明,改進(jìn)方法比原方法具有較高的準(zhǔn)確率。
關(guān) 鍵 詞 自然語(yǔ)言處理; 基于實(shí)例的機(jī)器翻譯; 句子相似度; 基于詞
基于實(shí)例的機(jī)器翻譯(Example Based Machine Translation,EBMT)是以雙語(yǔ)對(duì)齊的實(shí)例庫(kù)為主要知識(shí)源,輸入一個(gè)待翻譯的源語(yǔ)言句子,從實(shí)例庫(kù)中查找與輸入句最相似的例句,再模仿例句的譯文來(lái)實(shí)現(xiàn)輸入句的翻譯。在EBMT中,實(shí)例匹配是關(guān)鍵,直接關(guān)系到系統(tǒng)本身的翻譯質(zhì)量。實(shí)現(xiàn)實(shí)例匹配的有效機(jī)制是進(jìn)行句子相似度計(jì)算[1-2],目前主要有基于詞[3-5]和基于句法語(yǔ)義分析[6-7]的兩類(lèi)方法。兩類(lèi)方法各有優(yōu)缺點(diǎn),基于詞的方法簡(jiǎn)單、流行,但由于僅利用句子的表層信息,即組成句子的有關(guān)詞匯的詞法和語(yǔ)義信息,因此,在判斷句子整體結(jié)構(gòu)相似方面有欠缺;基于句法語(yǔ)義分析的方法折衷考慮句子的組成詞匯語(yǔ)義信息與整體框架結(jié)構(gòu)信息,但在折衷考慮的層次上較難把握。本文研究基于詞的句子相似度計(jì)算問(wèn)題,并在文獻(xiàn)[5]的基礎(chǔ)上提出了一種改進(jìn)的方法。
1 基于詞的句子相似度計(jì)算
基于詞的方法是目前最簡(jiǎn)單、最流行的方法,依據(jù)詞的形態(tài)變化、同義詞、反義詞以及更進(jìn)一步的語(yǔ)義距離來(lái)判斷孤立詞之間的相似度,再通過(guò)這種詞間相似度的不同組合來(lái)確定句子間的相似度。文獻(xiàn)[3]利用同義詞表計(jì)算兩句詞之間的語(yǔ)義距離,進(jìn)而計(jì)算兩句之間的相似度。文獻(xiàn)[4]通過(guò)正反雙向比較兩句相同詞的個(gè)數(shù)及其位置關(guān)系,得到一個(gè)轉(zhuǎn)換表達(dá)式和子塊庫(kù),再通過(guò)系統(tǒng)預(yù)定義的翻譯模式和限制條件實(shí)現(xiàn)兩句相似度的計(jì)算。文獻(xiàn)[5]通過(guò)比較兩句相同詞的個(gè)數(shù)及其位置關(guān)系,得到兩句的詞形相似度和詞序相似度,再通過(guò)詞形相似度和詞序相似度計(jì)算兩句的相似度。
文獻(xiàn)[4-5]采用的方法實(shí)質(zhì)上是相同的,均通過(guò)比較相同詞的個(gè)數(shù)及其位置關(guān)系來(lái)計(jì)算兩句的相似度。但在相似度的定義中,僅考慮了形態(tài)上相同的詞,而沒(méi)有考慮同義詞的情形。例如,對(duì)兩個(gè)簡(jiǎn)單的句子“我/ 是/ 老師/ 。/”與“他/ 為/ 學(xué)生/。/”,按照文獻(xiàn)[5]中的方法計(jì)算則相似度很低(只有0.1),實(shí)際上這兩句是比較相似的。究其原因,主要是沒(méi)有考慮兩句中的同義詞“是”和“為”。另外,也沒(méi)有考慮任何句法結(jié)構(gòu)信息。因此,在算法實(shí)現(xiàn)上雖然較為簡(jiǎn)單,但準(zhǔn)確率卻不高。基于詞的方法依據(jù)句子的表層信息,通過(guò)對(duì)這些表層信息的加工也可以獲得一些有用的句法結(jié)構(gòu)信息,如抽取一些能夠近似表達(dá)部分句法結(jié)構(gòu)信息的關(guān)鍵性的詞(以下簡(jiǎn)稱(chēng)關(guān)鍵詞)。在此基礎(chǔ)上進(jìn)行句子相似度計(jì)算,就會(huì)具有較高的準(zhǔn)確率。本文針對(duì)以上兩點(diǎn)作了進(jìn)一步的改進(jìn)。
2 一種改進(jìn)的方法
本文對(duì)文獻(xiàn)[5]中的句子相似模型作了進(jìn)一步改進(jìn),包括關(guān)鍵詞抽取,以及在句子相似度的定義中考慮同義詞的情形。令inp為待翻譯的輸入句,exa為對(duì)應(yīng)的m個(gè)例句中的一個(gè),先分別抽取inp和exa中所有的名詞、代詞、動(dòng)詞或形容詞,并組成相應(yīng)的關(guān)鍵詞序列,再求出inp和exa中關(guān)鍵詞序列的相似度,最后選取大于規(guī)定閾值的最大相似度例句作為輸入句的最相似例句。
2.1 關(guān)鍵詞抽取
由語(yǔ)言學(xué)知識(shí)可知,任何句子都是由關(guān)鍵成分(主、謂、賓等)和修飾成分(定、狀、補(bǔ)等)構(gòu)成的。關(guān)鍵成分對(duì)句子起主要作用,修飾成分對(duì)句子起次要作用。進(jìn)行句子相似度計(jì)算時(shí),只要考慮句中的關(guān)鍵成分。基于詞的方法不考慮句法結(jié)構(gòu)分析,因此,不能確定句子的內(nèi)部成分,包括關(guān)鍵成分和修飾成分。在通常情況下,一個(gè)句子中作主語(yǔ)和賓語(yǔ)的多為名詞或代詞,作謂語(yǔ)的多為動(dòng)詞或形容詞。因此,可以將一個(gè)句子中的所有名詞、代詞、動(dòng)詞和形容詞作為關(guān)鍵詞,并在計(jì)算句子相似度時(shí)只考慮這些關(guān)鍵詞。例如,句子“我/ 當(dāng)然/ 愿意/ 了解/ 她們/ 的/ 要求/ 。/”的關(guān)鍵詞序列為 “我/ 愿意/ 了解/ 她們/ 要求/ 。/”。對(duì)于特定句中的某個(gè)名詞、代詞、動(dòng)詞或形容詞,不一定就是該句中的主語(yǔ)、賓語(yǔ)或謂語(yǔ)成分,但相對(duì)于句中所有的詞構(gòu)成的詞序列而言,關(guān)鍵詞序列卻具有一定的句法結(jié)構(gòu)信息表達(dá)能力,至少可以了解句子中的哪些詞在組成句子框架結(jié)構(gòu)方面是比較重要的。在此基礎(chǔ)上進(jìn)行相似度計(jì)算,比一般基于詞的方法準(zhǔn)確一些。
- 基于概率分布函數(shù)的流程工廠模型拓?fù)?b class="flag-6" style="color: red">相似度計(jì)算 5次下載
- 基于卷積神經(jīng)網(wǎng)絡(luò)的相似度計(jì)算模型 19次下載
- 基于時(shí)空分析的交通路口相似度計(jì)算方法 5次下載
- 一種結(jié)合相對(duì)信息熵的改進(jìn)LEACH協(xié)議 13次下載
- 一種車(chē)輛霧計(jì)算停車(chē)輔助系統(tǒng)模型 10次下載
- 針對(duì)協(xié)同過(guò)濾推薦算法的相似度計(jì)算方法 6次下載
- 一種用于釋義識(shí)別的句子相似度算法 8次下載
- 基于圖集成模型的自動(dòng)摘要生產(chǎn)方法 10次下載
- 一種改進(jìn)的聚類(lèi)聯(lián)合相似度推薦算法 10次下載
- 如何使用區(qū)域相似度實(shí)現(xiàn)局部擬合活動(dòng)輪廓模型 2次下載
- 一種改進(jìn)的時(shí)序效應(yīng)的推薦模型 0次下載
- 基于分層組合模式的句子組合模型 0次下載
- 一中余弦相似度的改進(jìn)方法 0次下載
- 一種基于本體的概念相似度計(jì)算及其應(yīng)用_冉婕 0次下載
- 協(xié)同推薦系統(tǒng)檢測(cè)模型的一種優(yōu)化方法
- 一種新的通用視覺(jué)主干模型Vision Mamba 118次閱讀
- 一種新型的雙流注意力增強(qiáng)型BERT來(lái)提高捕捉句子對(duì)中細(xì)微差異的能力 1572次閱讀
- FLAT的一種改進(jìn)方案 1779次閱讀
- 一種采用微控制器的自動(dòng)模型鐵路布局項(xiàng)目 1586次閱讀
- 如何實(shí)現(xiàn)三維模型對(duì)比?比較3d模型相似度軟件浩辰3D軟件入門(mén)教程 1w次閱讀
- 腦機(jī)接口最新研究能將神經(jīng)信號(hào)直接映射為句子 3077次閱讀
- 人工智能是一種改進(jìn)數(shù)據(jù)控制和處理的方法 3165次閱讀
- 復(fù)合模型擴(kuò)展:一種更好的擴(kuò)展CNN的方法 3874次閱讀
- 【新專(zhuān)利介紹】一種改進(jìn)電表 1314次閱讀
- 一種可以超越傳統(tǒng)方法捕捉微小的面部表情,并更好的測(cè)量人類(lèi)情緒的機(jī)器學(xué)習(xí)模型 3853次閱讀
- 計(jì)算文本相似度幾種最常用的方法,并比較它們之間的性能 5.3w次閱讀
- 一種分?jǐn)?shù)階Bingham磁流變阻尼器力學(xué)模型 4658次閱讀
- 深度學(xué)習(xí)模型介紹,Attention機(jī)制和其它改進(jìn) 1.8w次閱讀
- 一種基于Diakoptics的計(jì)算微波電路的設(shè)計(jì)和實(shí)現(xiàn) 1243次閱讀
- 云計(jì)算的三種服務(wù)模式和四種部署模型 3115次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費(fèi)
- 2AN158 GD32VW553 Wi-Fi開(kāi)發(fā)指南
- 1.51MB | 2次下載 | 免費(fèi)
- 3AN148 GD32VW553射頻硬件開(kāi)發(fā)指南
- 2.07MB | 1次下載 | 免費(fèi)
- 4AN111-LTC3219用戶(hù)指南
- 84.32KB | 次下載 | 免費(fèi)
- 5AN153-用于電源系統(tǒng)管理的Linduino
- 1.38MB | 次下載 | 免費(fèi)
- 6AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費(fèi)
- 7SM2018E 支持可控硅調(diào)光線(xiàn)性恒流控制芯片
- 402.24 KB | 次下載 | 免費(fèi)
- 8AN-1308: 電流檢測(cè)放大器共模階躍響應(yīng)
- 545.42KB | 次下載 | 免費(fèi)
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費(fèi)
- 2免費(fèi)開(kāi)源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機(jī)智能手環(huán)心率計(jì)步器體溫顯示設(shè)計(jì)
- 0.10 MB | 130次下載 | 免費(fèi)
- 4使用單片機(jī)實(shí)現(xiàn)七人表決器的程序和仿真資料免費(fèi)下載
- 2.96 MB | 44次下載 | 免費(fèi)
- 53314A函數(shù)發(fā)生器維修手冊(cè)
- 16.30 MB | 31次下載 | 免費(fèi)
- 6美的電磁爐維修手冊(cè)大全
- 1.56 MB | 24次下載 | 5 積分
- 7如何正確測(cè)試電源的紋波
- 0.36 MB | 17次下載 | 免費(fèi)
- 8感應(yīng)筆電路圖
- 0.06 MB | 10次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191367次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評(píng)論