NER(命名實(shí)體識(shí)別)作為NLP的一項(xiàng)基本任務(wù),其日常是訓(xùn)練人工智能(zhang)對(duì)一段文本中的專有名詞(人名、地名、機(jī)構(gòu)名等)進(jìn)行識(shí)別和分類。
翻譯成計(jì)算機(jī)語(yǔ)言,就是從一段非結(jié)構(gòu)化的自然語(yǔ)言中找到各種實(shí)體,并將其分為合適的類別。且避免出現(xiàn)“江大橋同志到底就任了多少年南京市長(zhǎng)”這樣的問(wèn)題
但在數(shù)據(jù)缺乏,樣本不足的前提下,如何基于先驗(yàn)知識(shí)進(jìn)行分類和學(xué)習(xí),這就是目前NLPer面臨的一道難題——少樣本(Few-Shot)。
雖然已有越來(lái)越多針對(duì)少樣本NER的研究出現(xiàn)(比如預(yù)訓(xùn)練語(yǔ)言模型BERT),但仍沒有一個(gè)專屬數(shù)據(jù)集以供使用。
而現(xiàn)在,共包含來(lái)自維基百科的18萬(wàn)條句子,49萬(wàn)個(gè)實(shí)體和460萬(wàn)標(biāo)注,并具有8個(gè)粗粒度(coarse-grained types)實(shí)體類型和66個(gè)細(xì)粒度(fine-grained types)實(shí)體類型的數(shù)據(jù)集來(lái)了。
這就是清華大學(xué)聯(lián)合阿里達(dá)摩院共同開發(fā)的,行業(yè)內(nèi)第一個(gè)人工標(biāo)注(human-annotated)的少樣本NER數(shù)據(jù)集,F(xiàn)EW-NERD。
什么樣的數(shù)據(jù)集?
對(duì)比句子數(shù)量、標(biāo)記數(shù)、實(shí)體類型等統(tǒng)計(jì)數(shù)據(jù),F(xiàn)EW-NERD比相關(guān)領(lǐng)域內(nèi)已有的NER數(shù)據(jù)集都要更大。
此外,它也是規(guī)模最大的人工標(biāo)注的數(shù)據(jù)集。
為實(shí)體命名常常需要聯(lián)系上下文,尤其是在實(shí)體類型很多時(shí),注解難度將大大增加。
而FEW-NERD的注釋來(lái)自70位擁有語(yǔ)言學(xué)知識(shí)的注釋者,以及10位經(jīng)驗(yàn)豐富的專家。
具體而言,每個(gè)段落會(huì)交由兩人獨(dú)立完成注釋,然后由專家審查,再對(duì)分批抽取數(shù)據(jù)進(jìn)行雙重檢查。這很好地保證了注釋的準(zhǔn)確性。
比如上述“London is the fifth album by the British rock band…”這句話中的實(shí)體“London”,就被準(zhǔn)確標(biāo)注成了“Art-Music”。
而在以段落為單位進(jìn)行標(biāo)注時(shí),因?yàn)闃颖玖坎⒉欢啵訤EW-NERD數(shù)據(jù)的類別分布預(yù)計(jì)是相對(duì)平衡的,這也是它與以往NER數(shù)據(jù)集的一個(gè)關(guān)鍵區(qū)別。
并且在實(shí)踐中,大多數(shù)未見的實(shí)體類型都是細(xì)粒度的。而傳統(tǒng)的NER數(shù)據(jù)集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18個(gè)粗粒度的類型。
這就難以構(gòu)建足夠多的N元任務(wù)(N-way metatasks),并訓(xùn)練學(xué)習(xí)相關(guān)特征。
相比之下,F(xiàn)EW-NERD共包含了112個(gè)實(shí)體標(biāo)簽, 并具有8個(gè)粗粒度實(shí)體類型,和66個(gè)細(xì)粒度實(shí)體類型。
基準(zhǔn)的選擇
為了探索FEW-NERD所有實(shí)體類型之間的知識(shí)相關(guān)性(knowledge correlations),研究者進(jìn)行了實(shí)體類型相似性的實(shí)證研究。
從實(shí)驗(yàn)結(jié)果得知,相同粗粒度類型的實(shí)體類型具有較大的相似性,從而使知識(shí)遷移更加容易。
這啟發(fā)了研究者從知識(shí)遷移的角度進(jìn)行基準(zhǔn)設(shè)定。最終設(shè)置了三個(gè)基準(zhǔn):
FEW-NERD (SUP)
采用標(biāo)準(zhǔn)的監(jiān)督式NER設(shè)置,將70%的數(shù)據(jù)隨機(jī)分割為訓(xùn)練數(shù)據(jù),10%為驗(yàn)證數(shù)據(jù),20%為測(cè)試數(shù)據(jù)。
FEW-NERD(INTRA)
少樣本學(xué)習(xí)任務(wù),只包含粗粒度實(shí)體類型。
FEW-NRTD (INTER)
少樣本學(xué)習(xí)任務(wù),包含60%的細(xì)粒度類型,20%的細(xì)粒度類型。
實(shí)際的應(yīng)用
針對(duì)少樣本命名實(shí)體識(shí)別,F(xiàn)EW-NERD提供了一個(gè)同時(shí)包含粗粒度和細(xì)粒度,且統(tǒng)一基準(zhǔn)的大型數(shù)據(jù)集。
而作者也指出,由于精確的上下文標(biāo)注,F(xiàn)EW-NERD數(shù)據(jù)集不僅可以用于少樣本場(chǎng)景,在監(jiān)督學(xué)習(xí)、終身學(xué)習(xí)、開放信息抽取、實(shí)體分類等任務(wù)上也可以發(fā)揮作用。
此外,建立在FEW-NERD基礎(chǔ)上的模型和系統(tǒng),還能幫助構(gòu)建各個(gè)領(lǐng)域的知識(shí)圖譜(KGs),包括生物醫(yī)學(xué)、金融和法律領(lǐng)域,并進(jìn)一步促進(jìn)NLP在特定領(lǐng)域的應(yīng)用發(fā)展。
開發(fā)者還表示,將在未來(lái)增加跨域注釋、遠(yuǎn)距離注釋和更精細(xì)的實(shí)體類型來(lái)擴(kuò)展FEW-NERD。
原文標(biāo)題:ACL-IJCNLP 2021|行業(yè)首個(gè)少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7244瀏覽量
91053 -
人工智能
+關(guān)注
關(guān)注
1804文章
48749瀏覽量
246696
原文標(biāo)題:ACL-IJCNLP 2021|行業(yè)首個(gè)少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
東軟集團(tuán)入選國(guó)家數(shù)據(jù)局數(shù)據(jù)標(biāo)注優(yōu)秀案例
標(biāo)貝科技“4D-BEV上億點(diǎn)云標(biāo)注系統(tǒng)”入選國(guó)家數(shù)據(jù)局首批數(shù)據(jù)標(biāo)注優(yōu)秀案例

普華基礎(chǔ)軟件蒞臨阿里巴巴達(dá)摩院調(diào)研交流
中興通訊GoldenDB數(shù)據(jù)庫(kù)助力首個(gè)住房公積金國(guó)產(chǎn)數(shù)據(jù)庫(kù)聯(lián)合實(shí)驗(yàn)室落地?fù)P州
阿里云個(gè)人電腦,阿里云個(gè)人電腦的特點(diǎn)

AI自動(dòng)圖像標(biāo)注工具SpeedDP將是數(shù)據(jù)標(biāo)注行業(yè)發(fā)展的重要引擎

評(píng)論