歐盟(EU)支持的語言技術(shù)軟件共享平臺的組織者正在為應(yīng)用程序播下種子,這些應(yīng)用程序可能會在該平臺上首發(fā),并帶來一些引人注目的結(jié)果:例如,我們可能會看到一個說巴斯克語、亞歷克斯風(fēng)格的家庭語言助手的產(chǎn)物。
據(jù)了解,該平臺的首個版本名為歐洲語言網(wǎng)格(European Language Grid),通過來自數(shù)百家從事語言技術(shù)交易的歐洲公司,來增加宣傳和擴(kuò)大使用范圍,以及翻譯工具的曝光度。許多工具都提供了在講復(fù)雜/混合語言的人之間進(jìn)行交流的能力,比如愛爾蘭蓋爾語、馬耳他語和拉脫維亞語,這些語言的使用者相對較少。
毫無疑問,似乎像谷歌或亞馬遜這樣的全球技術(shù)巨頭也可以提供這些工具。但他們可能不會像一個專注的開發(fā)人員那樣投入時間并確保其精益求精。此外,該倡議的支持者說,歐洲應(yīng)該完善好自己的數(shù)字基礎(chǔ)設(shè)施。在一個試圖將跨越數(shù)十種母語的經(jīng)濟(jì)和社會聯(lián)盟凝聚在一起的大陸上,讓語言架構(gòu)輕松而自由地工作是一個關(guān)鍵所在。
德國人工智能研究中心(German Research Center for Artificial Intelligence,DFKI)的首席研究員Georg Rehm表示,語言網(wǎng)格旨在為歐洲的語言技術(shù)創(chuàng)造一個廣闊的市場。
網(wǎng)格是一個可調(diào)整的web平臺,允許訪問嵌入在平臺界面后面的數(shù)據(jù)集和工具。基礎(chǔ)設(shè)施在Kubernetes集群上運(yùn)行,Kubernetes集群是一組節(jié)點(diǎn)機(jī)器,運(yùn)行由服務(wù)提供商構(gòu)建的containerized應(yīng)用程序。這一切都是由柏林的云提供商SysEleven托管的。用戶可以訪問docker containers中的數(shù)據(jù)和工具,而不需要在本地安裝任何東西。網(wǎng)格組織者最近挑選了10個可以得到該平臺支持的早期項(xiàng)目,通過小額的研究資助來推動這些項(xiàng)目的發(fā)展。另一個項(xiàng)目的公開征集持續(xù)到了10月和11月,其結(jié)果可能在2021年1月初公布。
Elhuyar Fundazioa的語音技術(shù)經(jīng)理Igor Leturia Azkarate說:“我們的技術(shù)和服務(wù)將在一個更廣闊的市場上發(fā)揮更加明顯的作用,”該組織是一個促進(jìn)巴斯克語日常使用的非政府組織,尤其是在科技領(lǐng)域。“我們希望它能幫助其他講少數(shù)民族語言的人意識到這種可能性,并希望他們能通過我們的工作而獲益。”
Azkarate和他的同事正在調(diào)整巴斯克語的文本到語音轉(zhuǎn)換和語音識別工具,以便在基于Python的開源軟件語音助手Mycroft AI中工作。他們的目標(biāo)是制造一個家庭助手揚(yáng)聲器,一個類似Alexa的設(shè)備,由巴斯克語本地運(yùn)行。現(xiàn)今,這些大制造商生產(chǎn)的家庭助手通常使用的是世界上最通用的十幾種語言。
另一個早期項(xiàng)目來自赫爾辛基大學(xué)的J?rg Tiedemann,他正和同事們一起為網(wǎng)格開發(fā)開放的翻譯模型。這些模型使用深層神經(jīng)網(wǎng)絡(luò)分層軟件體系結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜的數(shù)學(xué)函數(shù),將文本映射為數(shù)值表示。使用數(shù)據(jù)集來訓(xùn)練模型以找到解決問題的最佳方法需要大量的計(jì)算能力,而且成本高昂。使模型可重用將有助于開發(fā)人員為低密度語言構(gòu)建工具。Tiedemann說:“少數(shù)民族語言受到的關(guān)注太少,因?yàn)樗鼈冊谏虡I(yè)范疇上似乎并不那么富有吸引力。這一差距需要彌合。”
語言技術(shù)公司Tilde的首席執(zhí)行官Andrejs Vasi?jevs之所以致力于該項(xiàng)目,是因?yàn)樗募亦l(xiāng)拉脫維亞缺乏數(shù)字工具。上世紀(jì)80年代末,他在Riga學(xué)習(xí)計(jì)算機(jī)科學(xué);那時拉脫維亞是蘇聯(lián)的一部分,個人計(jì)算機(jī)還是一個非常有限的領(lǐng)域。隨著蘇聯(lián)的解體,個人電腦出現(xiàn)了,人們想用它創(chuàng)辦獨(dú)立的報紙和雜志。但由于沒有拉脫維亞語鍵盤,也沒有拉脫維亞語字體,所以無法用拉脫維亞語書寫。Vasi?jevs開始著手解決這個問題,并于1991年與商業(yè)伙伴Uldis Dzenis合作創(chuàng)辦了Tilde。
三十年后,Tilde仍在制造各種工具來促進(jìn)交流,但現(xiàn)在重點(diǎn)著眼于機(jī)器翻譯、語音合成和語音識別領(lǐng)域。目前,德國歐盟輪值主席國網(wǎng)站下運(yùn)行著一個Tilde翻譯引擎,它與DFKI、德國DeepL公司的機(jī)器翻譯以及歐盟委員會自己的翻譯服務(wù)一起工作。該網(wǎng)站提供德語、法語和英語原件的即時翻譯,可翻譯成所有其他21種歐盟官方語言。這家總部位于Riga的開發(fā)服務(wù)已經(jīng)在語言網(wǎng)格上有幾個數(shù)據(jù)集和模型供潛在客戶測試,其中包括英語到保加利亞語和英語的機(jī)器翻譯模型,以及拉脫維亞語child's voice的文本到語音模型。Vasi?jevs說:“我們希望將我們的關(guān)鍵服務(wù)整合到歐洲語言網(wǎng)格中。這有助于增加市場的發(fā)展。”
原文標(biāo)題:Say Kaixo! 歐洲制造定制的翻譯機(jī)
文章出處:【微信公眾號:IEEE電氣電子工程師學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7747瀏覽量
90295 -
語音識別
+關(guān)注
關(guān)注
39文章
1773瀏覽量
113855
原文標(biāo)題:Say Kaixo! 歐洲制造定制的翻譯機(jī)
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
MCP:連接AI與應(yīng)用程序的開放標(biāo)準(zhǔn)!

AWTK-WEB 快速入門(6) - JS WebSocket 應(yīng)用程序

AWTK-WEB 快速入門(5) - C 語言 WebSocket 應(yīng)用程序

AWTK-WEB 快速入門(4) - JS Http 應(yīng)用程序

ANACONDA——關(guān)于發(fā)布數(shù)據(jù)應(yīng)用程序的新簡單方法

什么是云計(jì)算平臺?搭建云計(jì)算平臺需要什么條件
AWTK-WEB 快速入門(2) - JS 應(yīng)用程序

AWTK-WEB 快速入門(1) - C 語言應(yīng)用程序

MCU編程語言和開發(fā)環(huán)境介紹
為I2C啟動加載準(zhǔn)備TMS320C645x應(yīng)用程序

在bootloader和應(yīng)用程序之間共享FEE塊

嵌入式開發(fā)常用軟件有哪些?
為智能共享單車鎖系統(tǒng)選擇正確的參考晶振

評論