本文是一個自然語言處理資源索引,涵蓋了目前NLP領(lǐng)域常用任務(wù)的最佳實驗 結(jié)果和數(shù)據(jù)集資源,可以作為進一步從事NLP研究的基礎(chǔ)。讀者也可以自行在Github頁面上添加新的結(jié)果,本文中大部分為英文NLP資源,還有少數(shù)漢語、印地語和越南語資源。
本文實際上是一個索引,旨在記錄自然語言處理(NLP)領(lǐng)域的新進展,并概述最常見的NLP任務(wù)及其相應(yīng)數(shù)據(jù)集的新技術(shù)。
這篇索引旨在涵蓋主要的傳統(tǒng)和核心NLP任務(wù),如語義依賴性解析和詞性標注等,以及最近不斷取得新突破的任務(wù),比如閱讀理解和自然語言推理。本文主要目標是為感興趣的讀者提供關(guān)于NLP基準數(shù)據(jù)集的快速概覽,以及最新技術(shù)的進展,這些數(shù)據(jù)集和新進展可以作為進一步NLP研究的基礎(chǔ)。
因此,本文有意將這些NLP領(lǐng)域的新研究進展做一個簡單匯總,便于研究人員集中查閱參考。
讀者也可以通過瀏覽器訪問nlpprogress.com或nlpsota.com來閱讀本文。
簡易使用指南
實驗結(jié)果
本文首選在已發(fā)表的論文中的實驗結(jié)果,但對少數(shù)影響力很大的預(yù)印本論文也可能入選。
數(shù)據(jù)集
本文中收錄的數(shù)據(jù)集,除了利用該數(shù)據(jù)集的論文之外,還應(yīng)經(jīng)過至少一篇已發(fā)表的其他論文的評估。
代碼
我們建議添加指向?qū)崿F(xiàn)的鏈接(如果可用)。如果代碼不存在,您可以向表中添加代碼列(見下文)。在Code列,建議使用官方實現(xiàn)。如果有非官方實現(xiàn),請使用鏈接(見下文)。如果沒有可用的實現(xiàn),可以將單元格留空。
向本索引中添加新結(jié)果
如果要添加新結(jié)果,只需單擊文件右上角的小編輯按鈕以執(zhí)行相應(yīng)任務(wù)(如下圖所示)。
讀者可以在Markdown中編輯文件。只需以相同的格式將一行添加到相應(yīng)的表中即可。確保表格中數(shù)據(jù)排序正確(將最佳結(jié)果位于頂部)。完成更改后,單擊頁面頂部的“預(yù)覽更改”選項卡,確保表格看起來還不錯。如果一切看起來都OK,請轉(zhuǎn)到頁面底部確認更改。
此處需要為建議更改添加名稱,可以選擇添加說明文字,可以選擇“創(chuàng)建新分支并啟動拉取請求”,然后單擊“提交更改”。
具體索引內(nèi)容和研究領(lǐng)域如下,絕大部分為英語,有少量資源為漢語、印地語和越南語。
英語
自動語音識別
CCG超級標準
常識
選區(qū)解析
共同決議
依賴解析
對話
域適應(yīng)
實體鏈接
語法糾錯
信息提取
語言建模
詞匯規(guī)范化
機器翻譯
多任務(wù)學(xué)習(xí)
多模態(tài)
命名實體識別
自然語言推理
詞性標注
關(guān)系預(yù)測
關(guān)系提取
語義文本相似度
語義解析
語義角色標記
情緒分析
淺語法
簡單化
狀態(tài)檢測
概要
分類學(xué)習(xí)
時間處理
文字分類
詞義消歧
中文
實體鏈接
中文詞匯分割
印地語
分塊
詞性標注
機器翻譯
越南語
依賴解析
機器翻譯
命名實體識別
詞性標注
分詞
最后以”中文-詞匯分割”子類目為例,簡單說明這個索引資源的呈現(xiàn)方式。
點擊相應(yīng)鏈接進入,首先是中文詞匯分割這個任務(wù)的簡要介紹。
下面列出了不同作者建立的基于不同搜索方式的單詞分割模型,以及相應(yīng)模型的發(fā)表時間。
接下來是評估指標,此類中為F1分數(shù)。下面以表格形式給出每種模型在不同數(shù)據(jù)集上獲得的最佳F1分數(shù)。每個分數(shù)對應(yīng)的研究論文鏈接和部分Github資源地址。
可以看到,表中中文詞匯分割模型的最優(yōu)F1分數(shù)均超過了96分,感興趣的讀者可以點擊查看論文或Github資源。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25284 -
自然語言處理
+關(guān)注
關(guān)注
1文章
628瀏覽量
14028 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22494
原文標題:盤點NLP最新進展:多語種40+任務(wù)最優(yōu)結(jié)果任你查
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
SMT加工中的故障排除:寧波中電集創(chuàng)的系統(tǒng)化實踐
如何設(shè)計ADC和DAC的基準源,以及基準源如何影響ADC與DAC那些性能?
當今數(shù)據(jù)中心新技術(shù)趨勢
康謀分享 | AD/ADAS的性能概覽:在AD/ADAS的開發(fā)與驗證中“大海撈針”!

關(guān)于數(shù)據(jù)轉(zhuǎn)換器的基準電壓選擇和設(shè)計提示

【「時間序列與機器學(xué)習(xí)」閱讀體驗】全書概覽與時間序列概述
ADS1220集成PGA和基準的4通道、2kSPS、低功耗、24位ADC數(shù)據(jù)表

評論