總體說一下
NER任務(wù)大概分為三種:flat, overlapped, and discontinuousNER,如下圖所示:
aching in legs 為flat NER
aching in shoulders為discontinuous NER
aching in legs和achingin shoulders這兩個實體共同重復(fù)了aching in,為overlapped NER
最近的研究都在考慮如何通過一個大一統(tǒng)模型一次性解決這三種問題。目前的最佳的方法基本都是基于span-based和seq2seq的,然而span-based方法主要傾向于通過枚舉所有span組合來解決邊界問題,時間復(fù)雜度上是個問題;而后者大家都知道,存在錯誤傳播。 所以,本文提出了一種新穎的方式和框架來解決所有的NER問題:通過預(yù)測word-word之間的關(guān)系(這里稱之為W2NER)。其中word與word之間的關(guān)系主要有三種:
NNW: Next-Neighboring-Word,預(yù)測與后面詞的關(guān)系
THW-*: Tail-Head-Word-* ,預(yù)測與前面詞的關(guān)系,其中*表示具體關(guān)系(ORG、PER等)
NONE:表示沒有關(guān)系
其中,本文采用一個多粒度2D圖來表示word之間的關(guān)系,如下圖,其中為了解決圖的稀疏性,而將這兩種關(guān)系放到一個圖里,一個在右上角,一個在左下角。
最終在14個公開數(shù)據(jù)集(包含中文和英文)上做了大量實驗,并都取得了最佳值,也成為了最新的SoTA。
模型
一下子看,感覺模型想是一堆模塊堆積而成,其實細讀論文會發(fā)現(xiàn)這些模型都是由NER的前人經(jīng)驗而來,有理有據(jù)。 具體來看,大概分為三個模塊: Encoder Layer通過BERT獲取表示信息,然后通過LSTM獲取上下文信息。 Convolution Layer這里有一個CLN(Conditional Layer Normalization)層,主要用來獲得word j在word i前提下的表示:
然后是BERT-Style Grid Representation層,這里主要是模型BERT的3個embedding層而來,這里的三個表示層為信息表示、關(guān)系位置信息表示和位置域表示組成,通過MLP融合到一起。 然后通過多粒度的空洞卷積(Multi-Granularity Dilated Convolution)采樣不同的信息。 Co-Predictor Layer這里用了一個普通的MLP和一個專門用于變長標(biāo)簽預(yù)測的biaffine預(yù)測:
? 最后過一個softmax層:
? 最后是一個Decoder層,這里主要就是通過NNW和HTW-*構(gòu)成一個環(huán)的部分就是一個實體,比如下面這個例子就解釋了所有情況: ?
損失的話,就簡單了:
實驗
英文flat數(shù)據(jù)集:
中文flat數(shù)據(jù)集:
英文overlapped數(shù)據(jù)集:
中文overlapped數(shù)據(jù)集,F(xiàn)1性能:
英文discontinuous數(shù)據(jù)集:
和前沿最佳論文作對比:
消融實驗,F(xiàn)1性能:
訓(xùn)練速度和推理速度都得到了極大提升:
這篇文章還是非常不錯的,是一個簡單有效的NER新框架,可以較為輕松的應(yīng)用于線下。
審核編輯 :李倩
-
word
+關(guān)注
關(guān)注
1文章
78瀏覽量
22270 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25278
原文標(biāo)題:一種全新易用的基于Word-Word關(guān)系的NER統(tǒng)一模型,刷新了14種數(shù)據(jù)集并達到新SoTA
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
復(fù)制Simulink中的仿真模型到word的方法小結(jié)
Microsoft Office Word、Excel 和
一種基于Word文檔的數(shù)字密寫設(shè)計與實現(xiàn)
《微機原理及應(yīng)用》課程教程 (word文檔)
一種快速Word編程接口的設(shè)計與實現(xiàn)
Office Word、Excel和PowerPoint 文

一種快速Word編程接口的設(shè)計與實現(xiàn)
word如何去刪除水印
word/word2003上次啟動失敗,以安全模式啟動的解決

如何用Word調(diào)用Protel For DOS繪制的圖形
如何使用Python讀取寫入Word文件
Spire.Cloud.Word云端Word文檔處理SDK介紹

評論