據(jù)語言學(xué)家估計(jì),在全球化、文化同化等多種因素的影響下,到本世紀(jì)末,世界上約 7000 種的語言至少有一半將會(huì)消失。
記錄及振興瀕危語言的工作充滿挑戰(zhàn),其中部分原因在于缺乏相應(yīng)的文本和語音記錄。塞內(nèi)卡語是北美地區(qū)六個(gè)易洛魁聯(lián)盟所使用的語言之一,目前,僅有約 100 人將塞內(nèi)卡語作為第一語言,另有數(shù)百位非母語人士正在學(xué)習(xí)塞內(nèi)卡語。
自動(dòng)語音識(shí)別 (ASR) 技術(shù)已被廣泛應(yīng)用于轉(zhuǎn)寫英語和漢語等大語種,這些語言的使用人數(shù)高達(dá)數(shù)百萬至數(shù)十億。但對(duì)于塞內(nèi)卡語這類使用人數(shù)稀少且可用數(shù)據(jù)極度貧乏的語言來說,自動(dòng)語言識(shí)別技術(shù)發(fā)揮出的作用只是皮毛而已。
現(xiàn)在,紐約羅切斯特理工學(xué)院的一組研究人員以及布法羅大學(xué)的同事正在利用深度學(xué)習(xí)技術(shù)來增強(qiáng)自動(dòng)語音識(shí)別的功能。該項(xiàng)目現(xiàn)階段的工作核心是塞內(nèi)卡語,但研究人員的愿景是將其應(yīng)用于全球各種瀕危語言的保護(hù),使之成為全人類共同文化歷史的重要組成部分。
“接觸不同的語言可以讓我們更多地了解大腦的運(yùn)作機(jī)制”,波士頓學(xué)院計(jì)算機(jī)科學(xué)助理教授兼羅切斯特理工學(xué)院研究員 Emily Prud'hommeaux 說道,“在記錄一種語言時(shí),保存下來的不僅是這種語言本身,還有人類使用語言的基本方式”。
Prud’hommeaux 及其同事選擇從塞內(nèi)卡語開始入手并非偶然。她表示,團(tuán)隊(duì)中有三名成員是塞內(nèi)卡人,在此類研究中,這種直接的聯(lián)系實(shí)屬罕見。
項(xiàng)目帶頭人是 Robbie Jimerson,他是羅切斯特理工學(xué)院 Golisano 計(jì)算與信息科學(xué)學(xué)院的博士研究生,也是塞內(nèi)卡印第安人部落中的一員,熱衷于保護(hù)塞內(nèi)卡語免于消亡。
“部落中的長老為塞內(nèi)卡語的保護(hù)和推廣付出了很大的努力” ,Jimerson 說道,“我也在尋找機(jī)會(huì)貢獻(xiàn)自己的一份力量”。
利用生成對(duì)抗網(wǎng)絡(luò)創(chuàng)建更多語言樣本
目前,該項(xiàng)目已經(jīng)進(jìn)行到了第三個(gè)年頭,在積累語言數(shù)據(jù)時(shí),研究人員遇到了一些挑戰(zhàn)。Jimerson 說,塞內(nèi)卡群體在與外人分享東西時(shí)十分謹(jǐn)慎,所以塞內(nèi)卡語的錄音資料非常少。而他則迎難而上。
一開始,他把會(huì)說塞內(nèi)卡語的朋友和老人當(dāng)作錄音對(duì)象,并請(qǐng)求這些人錄下他們和各自朋友的談話錄音。每當(dāng)有人在公共場合說塞內(nèi)卡語時(shí),他都不會(huì)錯(cuò)過錄音的機(jī)會(huì)。此外,他還請(qǐng)家人錄下老人講述的古老傳說,同時(shí)也搜集了互聯(lián)網(wǎng)上一切可以公開獲取的視頻和錄音資料。
研究團(tuán)隊(duì)精心編寫了一款專門用來處理塞內(nèi)卡語的自動(dòng)語音識(shí)別模型,并通過生成對(duì)抗網(wǎng)絡(luò)利用有限的錄音創(chuàng)建出更多的語音樣本。該模型將錄音的波形文件轉(zhuǎn)換為字符流,同時(shí)計(jì)算出概率并進(jìn)行校正。
隨后,他們將得出的數(shù)據(jù)輸入深度學(xué)習(xí)模型,后者反過來增強(qiáng)了自動(dòng)語言識(shí)別模型的準(zhǔn)確度。
研究團(tuán)隊(duì)的網(wǎng)絡(luò)采用了兩種計(jì)算配置:其一是配備了九臺(tái)服務(wù)器的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,實(shí)驗(yàn)室中運(yùn)行著若干臺(tái) NVIDIA Tesla GPU;另一種是配備了大型服務(wù)器的大學(xué)集群,每臺(tái)服務(wù)器上運(yùn)行著 10 臺(tái)NVIDIA Tesla P4 GPU。每個(gè)集群都運(yùn)行著一系列深度學(xué)習(xí)框架,如 TensorFlow 和 Caffe。
“計(jì)算工程集群供計(jì)算機(jī)工程學(xué)院的所有學(xué)生使用,所以大家會(huì)‘爭搶’資源”,Ray Ptucha 如是說,他是羅切斯特理工學(xué)院計(jì)算機(jī)工程學(xué)院的助理教授,也是本項(xiàng)目的另一位成員。
有了這些彌足珍貴的集群,Jimerson 可以在運(yùn)行著NVIDIA TITAN X的本地機(jī)器上測試代碼并檢查模型的穩(wěn)定性,從而避免運(yùn)行可能會(huì)崩潰的模型,以至于為其他學(xué)生帶來不便。
準(zhǔn)確度更上一層樓
到目前為止,經(jīng)過團(tuán)隊(duì)的不懈努力,其自動(dòng)語音識(shí)別模型的文字錯(cuò)誤率已由 70% 降至 56%。Prud’hommeaux 稱,他們的目標(biāo)是將錯(cuò)誤率降低至 25%,這一水平相當(dāng)于幾年前使用自動(dòng)語音識(shí)別系統(tǒng)處理英語語音的水平。
團(tuán)隊(duì)可以積累的塞內(nèi)卡語語音和文字樣本越多,識(shí)別錯(cuò)誤率就會(huì)越低。(如今,英語自動(dòng)語音識(shí)別模型可以達(dá)到低至 5% 的錯(cuò)誤率。)
該團(tuán)隊(duì)取得的成果有望為全球其他語種的保護(hù)工作提供幫助。
據(jù) Prud’hommeaux 稱,團(tuán)隊(duì)已與一家存檔機(jī)構(gòu)達(dá)成協(xié)議,這是美國國家科學(xué)基金會(huì)為該項(xiàng)目提供的資助條件。當(dāng)他們開展記錄瀕危語言的其他工作時(shí),可使用最終形成的語言存檔數(shù)據(jù)庫作為可用資源。
與此同時(shí),Prud’hommeaux 還表示,團(tuán)隊(duì)的工作將為只能利用有限數(shù)據(jù)量的深度學(xué)習(xí)研究提供思路。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48726瀏覽量
246623 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5554瀏覽量
122492
原文標(biāo)題:人工智能幫助瀕危語言 “復(fù)活”
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論