阿布扎比先進(jìn)技術(shù)研究委員會旗下的全球研究中心和應(yīng)用研究支柱部門技術(shù)創(chuàng)新研究所(TII)今天宣布推出NOOR語言處理模型,這是迄今為止全球規(guī)模居首的阿拉伯語自然語言處理(NLP)模型。
TII的高級研究人員和人工智能專家團(tuán)隊(duì)與LightOn聯(lián)手,對這個阿拉伯語NLP模型進(jìn)行了改進(jìn)。LightOn是一家專為企業(yè)提供超大規(guī)模機(jī)器智能的技術(shù)公司。NOOR模型能夠執(zhí)行超出語言領(lǐng)域的任務(wù),可提供覆蓋整個端到端處理管道的高質(zhì)量數(shù)據(jù),包括大規(guī)模數(shù)據(jù)抓取、過濾和管理。該模型可促進(jìn)超大規(guī)模數(shù)據(jù)的分布式訓(xùn)練和服務(wù),基于該模型的應(yīng)用具有高效推理能力,并可針對特定領(lǐng)域進(jìn)行模型調(diào)整。
TII和ASPIRE首席執(zhí)行官Ray O. Johnson博士表示:“這一進(jìn)展將大幅提升我們的研究能力和資質(zhì),并提升阿布扎比和阿聯(lián)酋作為重要研究生態(tài)系統(tǒng)的地位。我們的專家團(tuán)隊(duì)再次證明,阿布扎比和阿聯(lián)酋地區(qū)可以取得具有世界影響力的、突破性的研發(fā)成果?!?/p>
TII人工智能跨學(xué)科中心部門主任Ebtesam Almazrouei博士表示:“在自然語言處理領(lǐng)域,大型語言模型不斷涌現(xiàn)。能推出這個擁有100億個參數(shù)的先進(jìn)模型,我們感到很自豪。這是全球規(guī)模居首的阿拉伯語NLP模型。為訓(xùn)練該模型,我們采集了一套獨(dú)一無二的大型阿拉伯語數(shù)據(jù)集。相關(guān)工作歷經(jīng)數(shù)月時間,包括對各種來源數(shù)據(jù)的整理、剔除和過濾。在此特別感謝參與該項(xiàng)目的整個團(tuán)隊(duì),他們使NOOR成為世界各地學(xué)者和企業(yè)首選的阿拉伯語研究模型。”
TII數(shù)字科學(xué)研究中心和人工智能跨學(xué)科中心部門首席研究員Mérouane Debbah教授在發(fā)布會上表示:“通過NOOR,TII利用在大型語言模型方面的專有技術(shù),擴(kuò)大了現(xiàn)代標(biāo)準(zhǔn)阿拉伯語模型的范圍,以在新一代人工智能研究中建立跨學(xué)科的先進(jìn)專長?!?/p>
NOOR擁有超過300億字的獨(dú)特?cái)?shù)據(jù)集,涵蓋網(wǎng)絡(luò)數(shù)據(jù)、書籍、詩歌、新聞文章和技術(shù)信息等來源,從而打造出全球規(guī)模居首的高質(zhì)量跨領(lǐng)域阿拉伯語數(shù)據(jù)集,并大幅拓寬了該模型的適用范圍。
Ebtesam Almazrouei博士表示,NOOR模型基于流行的Transformer架構(gòu),僅包含解碼器,結(jié)構(gòu)與GPT-3相似,其設(shè)計(jì)旨在處理生成類任務(wù)。經(jīng)過升級的架構(gòu)引入了機(jī)器學(xué)習(xí)領(lǐng)域的最新發(fā)展,包括更好的位置嵌入等改進(jìn)。為確保NOOR大規(guī)模數(shù)據(jù)集的質(zhì)量,TII團(tuán)隊(duì)設(shè)計(jì)了一個基于機(jī)器學(xué)習(xí)技術(shù)的自動過濾管道。相關(guān)工具可以識別優(yōu)質(zhì)參考文本,并保障模型不受垃圾內(nèi)容污染。
NOOR利用先進(jìn)的3D并行技術(shù),在配備128個A100 GPU的高性能計(jì)算資源上進(jìn)行了訓(xùn)練,該過程采用分布式計(jì)算模式,能夠確保有效利用可用的硬件資源。
人工智能跨學(xué)科中心部門主任指出,NOOR只是該部門努力為更廣泛的阿聯(lián)酋人工智能戰(zhàn)略做出貢獻(xiàn)的第一步。
該模型以阿拉伯語中的“光”命名,以體現(xiàn)模型旨在啟迪人類智慧的宗旨。
審核編輯:湯梓紅
-
人工智能
+關(guān)注
關(guān)注
1804文章
48717瀏覽量
246525 -
模型
+關(guān)注
關(guān)注
1文章
3487瀏覽量
49994 -
自然語言處理
+關(guān)注
關(guān)注
1文章
628瀏覽量
14010
發(fā)布評論請先 登錄
如何優(yōu)化自然語言處理模型的性能
自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟
語音識別與自然語言處理的關(guān)系
ASR與自然語言處理的結(jié)合
科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語言大模型
【AWTK使用經(jīng)驗(yàn)】如何在AWTK顯示阿拉伯文本

評論