女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

清華聯(lián)合阿里達(dá)摩院開發(fā)行業(yè)首個(gè)人工標(biāo)注的少樣本NER數(shù)據(jù)集

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:量子位 ? 作者:量子位 ? 2021-05-28 14:59 ? 次閱讀

NER(命名實(shí)體識(shí)別)作為NLP的一項(xiàng)基本任務(wù),其日常是訓(xùn)練人工智能(zhang)對(duì)一段文本中的專有名詞(人名、地名、機(jī)構(gòu)名等)進(jìn)行識(shí)別和分類。

翻譯成計(jì)算機(jī)語(yǔ)言,就是從一段非結(jié)構(gòu)化的自然語(yǔ)言中找到各種實(shí)體,并將其分為合適的類別。且避免出現(xiàn)“江大橋同志到底就任了多少年南京市長(zhǎng)”這樣的問(wèn)題

但在數(shù)據(jù)缺乏,樣本不足的前提下,如何基于先驗(yàn)知識(shí)進(jìn)行分類和學(xué)習(xí),這就是目前NLPer面臨的一道難題——少樣本(Few-Shot)。

雖然已有越來(lái)越多針對(duì)少樣本NER的研究出現(xiàn)(比如預(yù)訓(xùn)練語(yǔ)言模型BERT),但仍沒有一個(gè)專屬數(shù)據(jù)集以供使用。

而現(xiàn)在,共包含來(lái)自維基百科的18萬(wàn)條句子,49萬(wàn)個(gè)實(shí)體和460萬(wàn)標(biāo)注,并具有8個(gè)粗粒度(coarse-grained types)實(shí)體類型和66個(gè)細(xì)粒度(fine-grained types)實(shí)體類型的數(shù)據(jù)集來(lái)了。

這就是清華大學(xué)聯(lián)合阿里達(dá)摩院共同開發(fā)的,行業(yè)內(nèi)第一個(gè)人工標(biāo)注(human-annotated)的少樣本NER數(shù)據(jù)集,F(xiàn)EW-NERD。

什么樣的數(shù)據(jù)集?

對(duì)比句子數(shù)量、標(biāo)記數(shù)、實(shí)體類型等統(tǒng)計(jì)數(shù)據(jù),F(xiàn)EW-NERD比相關(guān)領(lǐng)域內(nèi)已有的NER數(shù)據(jù)集都要更大。

dae04584-be8d-11eb-9e57-12bb97331649.png

此外,它也是規(guī)模最大的人工標(biāo)注的數(shù)據(jù)集。

為實(shí)體命名常常需要聯(lián)系上下文,尤其是在實(shí)體類型很多時(shí),注解難度將大大增加。

而FEW-NERD的注釋來(lái)自70位擁有語(yǔ)言學(xué)知識(shí)的注釋者,以及10位經(jīng)驗(yàn)豐富的專家。

具體而言,每個(gè)段落會(huì)交由兩人獨(dú)立完成注釋,然后由專家審查,再對(duì)分批抽取數(shù)據(jù)進(jìn)行雙重檢查。這很好地保證了注釋的準(zhǔn)確性。

比如上述“London is the fifth album by the British rock band…”這句話中的實(shí)體“London”,就被準(zhǔn)確標(biāo)注成了“Art-Music”。

而在以段落為單位進(jìn)行標(biāo)注時(shí),因?yàn)闃颖玖坎⒉欢啵訤EW-NERD數(shù)據(jù)的類別分布預(yù)計(jì)是相對(duì)平衡的,這也是它與以往NER數(shù)據(jù)集的一個(gè)關(guān)鍵區(qū)別。

并且在實(shí)踐中,大多數(shù)未見的實(shí)體類型都是細(xì)粒度的。而傳統(tǒng)的NER數(shù)據(jù)集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18個(gè)粗粒度的類型。

這就難以構(gòu)建足夠多的N元任務(wù)(N-way metatasks),并訓(xùn)練學(xué)習(xí)相關(guān)特征。

相比之下,F(xiàn)EW-NERD共包含了112個(gè)實(shí)體標(biāo)簽, 并具有8個(gè)粗粒度實(shí)體類型,和66個(gè)細(xì)粒度實(shí)體類型。

基準(zhǔn)的選擇

為了探索FEW-NERD所有實(shí)體類型之間的知識(shí)相關(guān)性(knowledge correlations),研究者進(jìn)行了實(shí)體類型相似性的實(shí)證研究。

從實(shí)驗(yàn)結(jié)果得知,相同粗粒度類型的實(shí)體類型具有較大的相似性,從而使知識(shí)遷移更加容易。

這啟發(fā)了研究者從知識(shí)遷移的角度進(jìn)行基準(zhǔn)設(shè)定。最終設(shè)置了三個(gè)基準(zhǔn):

FEW-NERD (SUP)
采用標(biāo)準(zhǔn)的監(jiān)督式NER設(shè)置,將70%的數(shù)據(jù)隨機(jī)分割為訓(xùn)練數(shù)據(jù),10%為驗(yàn)證數(shù)據(jù),20%為測(cè)試數(shù)據(jù)。

FEW-NERD(INTRA)
少樣本學(xué)習(xí)任務(wù),只包含粗粒度實(shí)體類型。

FEW-NRTD (INTER)
少樣本學(xué)習(xí)任務(wù),包含60%的細(xì)粒度類型,20%的細(xì)粒度類型。

實(shí)際的應(yīng)用

針對(duì)少樣本命名實(shí)體識(shí)別,F(xiàn)EW-NERD提供了一個(gè)同時(shí)包含粗粒度和細(xì)粒度,且統(tǒng)一基準(zhǔn)的大型數(shù)據(jù)集。

而作者也指出,由于精確的上下文標(biāo)注,F(xiàn)EW-NERD數(shù)據(jù)集不僅可以用于少樣本場(chǎng)景,在監(jiān)督學(xué)習(xí)、終身學(xué)習(xí)、開放信息抽取、實(shí)體分類等任務(wù)上也可以發(fā)揮作用。

此外,建立在FEW-NERD基礎(chǔ)上的模型和系統(tǒng),還能幫助構(gòu)建各個(gè)領(lǐng)域的知識(shí)圖譜(KGs),包括生物醫(yī)學(xué)、金融和法律領(lǐng)域,并進(jìn)一步促進(jìn)NLP在特定領(lǐng)域的應(yīng)用發(fā)展。

開發(fā)者還表示,將在未來(lái)增加跨域注釋、遠(yuǎn)距離注釋和更精細(xì)的實(shí)體類型來(lái)擴(kuò)展FEW-NERD。

原文標(biāo)題:ACL-IJCNLP 2021|行業(yè)首個(gè)少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7244

    瀏覽量

    91053
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48749

    瀏覽量

    246696

原文標(biāo)題:ACL-IJCNLP 2021|行業(yè)首個(gè)少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    東軟集團(tuán)入選國(guó)家數(shù)據(jù)數(shù)據(jù)標(biāo)注優(yōu)秀案例

    近日,東軟飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)在國(guó)家數(shù)據(jù)局發(fā)布數(shù)據(jù)標(biāo)注優(yōu)秀案例名單中排名第一(案例名稱“多模態(tài)醫(yī)學(xué)影像智能
    的頭像 發(fā)表于 05-09 14:37 ?322次閱讀

    標(biāo)貝科技“4D-BEV上億點(diǎn)云標(biāo)注系統(tǒng)”入選國(guó)家數(shù)據(jù)局首批數(shù)據(jù)標(biāo)注優(yōu)秀案例

    4月29日,作為第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的重要組成部分,由國(guó)家數(shù)據(jù)局主辦的高質(zhì)量數(shù)據(jù)數(shù)據(jù)標(biāo)注主題交流活動(dòng)在福州市數(shù)字中國(guó)會(huì)展中心舉行。會(huì)議
    的頭像 發(fā)表于 04-30 14:38 ?153次閱讀
    標(biāo)貝科技“4D-BEV上億點(diǎn)云<b class='flag-5'>標(biāo)注</b>系統(tǒng)”入選國(guó)家<b class='flag-5'>數(shù)據(jù)</b>局首批<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>優(yōu)秀案例

    普華基礎(chǔ)軟件蒞臨阿里巴巴達(dá)摩調(diào)研交流

    近日, 普華基礎(chǔ)軟件股份有限公司(以下簡(jiǎn)稱普華基礎(chǔ)軟件)董事、總經(jīng)理劉宏倩一行前往阿里巴巴達(dá)摩(杭州)科技有限公司(以下簡(jiǎn)稱達(dá)摩)調(diào)研交
    的頭像 發(fā)表于 04-08 10:10 ?423次閱讀

    中興通訊GoldenDB數(shù)據(jù)庫(kù)助力首個(gè)住房公積金國(guó)產(chǎn)數(shù)據(jù)庫(kù)聯(lián)合實(shí)驗(yàn)室落地?fù)P州

    領(lǐng)域的國(guó)產(chǎn)數(shù)據(jù)庫(kù)聯(lián)合實(shí)驗(yàn)室成功落地,雙方將圍繞GoldenDB數(shù)據(jù)庫(kù)在公積金核心系統(tǒng)的深度應(yīng)用展開技術(shù)攻關(guān),為全國(guó)公積金行業(yè)數(shù)字化轉(zhuǎn)型提供示范樣本
    的頭像 發(fā)表于 04-07 18:26 ?528次閱讀

    阿里個(gè)人電腦,阿里個(gè)人電腦的特點(diǎn)

    ? ? 在當(dāng)代IT管理體系中,遠(yuǎn)程連接工具發(fā)揮著舉足輕重的作用。這些工具賦予系統(tǒng)管理員同時(shí)操控與監(jiān)視多臺(tái)遠(yuǎn)程計(jì)算機(jī)的能力,顯著提升了工作效率并增強(qiáng)了系統(tǒng)安全性。今天小編給大家講解阿里個(gè)人電腦的特點(diǎn)
    的頭像 發(fā)表于 02-07 15:44 ?477次閱讀
    <b class='flag-5'>阿里</b>云<b class='flag-5'>個(gè)人</b>電腦,<b class='flag-5'>阿里</b>云<b class='flag-5'>個(gè)人</b>電腦的特點(diǎn)

    AI自動(dòng)圖像標(biāo)注工具SpeedDP將是數(shù)據(jù)標(biāo)注行業(yè)發(fā)展的重要引擎

    AI大浪潮下,許多企業(yè)都在不斷借助AI來(lái)提升自己的行業(yè)競(jìng)爭(zhēng)力,數(shù)據(jù)標(biāo)注企業(yè)也不例外,傳統(tǒng)人工標(biāo)注效率不足的弊端困擾了多年,如今新的“引擎”就
    的頭像 發(fā)表于 01-02 17:53 ?683次閱讀
    AI自動(dòng)圖像<b class='flag-5'>標(biāo)注</b>工具SpeedDP將是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b><b class='flag-5'>行業(yè)</b>發(fā)展的重要引擎

    軟通動(dòng)力入選《人工智能數(shù)據(jù)標(biāo)注產(chǎn)業(yè)圖譜》

    近日,由中國(guó)信息通信研究、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟牽頭,聯(lián)合中國(guó)電信集團(tuán)、沈陽(yáng)市數(shù)據(jù)局、保定高新區(qū)等70多家單位編制完成并發(fā)布了《人工智能
    的頭像 發(fā)表于 12-03 10:18 ?428次閱讀

    博世與清華大學(xué)續(xù)簽人工智能研究合作協(xié)議

    近日,博世與清華大學(xué)宣布,雙方續(xù)簽人工智能領(lǐng)域的研究合作協(xié)議,為期五年。在此期間,博世將投入5000萬(wàn)元人民幣。基于2020年成立的清華大學(xué)—博世機(jī)器學(xué)習(xí)聯(lián)合研究中心(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 11-20 11:37 ?679次閱讀

    RISC-V,即將進(jìn)入應(yīng)用的爆發(fā)期

    我們會(huì)迎來(lái)前所未見的AI軟件應(yīng)用,而RISC-V有望打造出下一代的AI引擎。” 達(dá)摩院長(zhǎng)張建鋒此前在3月2024玄鐵RISC-V生態(tài)大會(huì)表示,隨著新型算力需求激增,RISC-V發(fā)展迎來(lái)蝶變,即將進(jìn)入應(yīng)用爆發(fā)期。他還表示,達(dá)摩
    發(fā)表于 10-31 16:06

    字節(jié)跳動(dòng)與清華AIR成立聯(lián)合研究中心

    近日,清華大學(xué)智能產(chǎn)業(yè)研究(AIR)與字節(jié)跳動(dòng)共同宣布成立“可擴(kuò)展大模型智能技術(shù)聯(lián)合研究中心”(SIA Lab),并在清華大學(xué)舉行了隆重的成立儀式。
    的頭像 發(fā)表于 10-12 15:24 ?730次閱讀

    易華錄“基于北斗數(shù)據(jù)的高精度定位服務(wù)融合應(yīng)用”入選案例

    近期,由開放群島開源社區(qū)牽頭撰寫,中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究清華大學(xué)互聯(lián)網(wǎng)產(chǎn)業(yè)研究聯(lián)合發(fā)起的《2023-2024開放群島開源社區(qū)數(shù)實(shí)融合引領(lǐng)場(chǎng)景創(chuàng)新優(yōu)秀案例
    的頭像 發(fā)表于 09-04 09:11 ?767次閱讀

    如意香山筆記本軟件適配工作穩(wěn)步推進(jìn),成功運(yùn)行多款Linux發(fā)行版及國(guó)產(chǎn)辦公套件

    核 IP。2021年由多家行業(yè)龍頭企業(yè)和頂尖科研單位共同發(fā)起了成立了北京開源芯片研究(BOSC),圍繞香山進(jìn)行進(jìn)一步技術(shù)迭代、產(chǎn)品開發(fā)和示范應(yīng)用,加速 RISC-V 生態(tài)發(fā)展。 如意香山本搭載至高
    發(fā)表于 09-02 11:33

    阿里達(dá)摩發(fā)布玄鐵R908 CPU

    在杭州第四屆RISC-V中國(guó)峰會(huì)上,阿里達(dá)摩再次展現(xiàn)技術(shù)實(shí)力,隆重推出了玄鐵處理器家族的最新成員——R908 CPU。此次發(fā)布標(biāo)志著玄鐵系列在高端計(jì)算領(lǐng)域的全面升級(jí),吸引了業(yè)界的廣泛矚目。
    的頭像 發(fā)表于 08-23 16:27 ?1391次閱讀

    阿里云發(fā)布首個(gè)AI程序員,引領(lǐng)應(yīng)用開發(fā)進(jìn)入“分鐘級(jí)”時(shí)代

    近日,在備受矚目的阿里云上海AI峰會(huì)上,阿里云向全球開發(fā)者們展示了其最新的技術(shù)成果——首個(gè)“AI程序員”。這款創(chuàng)新應(yīng)用基于通義大模型構(gòu)建,具備了令人驚嘆的多項(xiàng)技能,包括架構(gòu)師、
    的頭像 發(fā)表于 06-24 10:36 ?896次閱讀

    易華錄無(wú)錫數(shù)據(jù)湖與清華大學(xué)蘇州汽車研究(吳江)合作挖掘智能駕駛數(shù)據(jù)新價(jià)值

    智慧交通專家顧問(wèn)王銳鋒出席簽約儀式,數(shù)字工業(yè)中心副主任陳翠翠和無(wú)錫數(shù)據(jù)湖總經(jīng)理張琦代表雙方簽署戰(zhàn)略合作協(xié)議。 清華大學(xué)蘇州汽車研究 清華大學(xué)蘇州汽車研究
    的頭像 發(fā)表于 06-18 15:00 ?1253次閱讀