TL; DR
在情感分類中,一些good features,比如”good“、”nice“表示積極,”bad“、“terrible”表示消極。但是,還有許多common features,比如voice、screen就沒有特別的情感性。
盡管深度學(xué)習(xí)擁有強(qiáng)大的representation learning(表征學(xué)習(xí),即同一個(gè)數(shù)據(jù)用不同的表示形式)。但我們認(rèn)為還有可以改進(jìn)的地方。
在本文中,我們提出了一種新的角度來進(jìn)一步改善這種表示學(xué)習(xí),即特征投影(feature projection):將現(xiàn)有特征投影到common特征的正交空間中。
所得的投影向量垂直于common特征,能更好的進(jìn)行分類。
將該方法用于改進(jìn)基于CNN,RNN,Transformer和Bert的文本分類模型,獲得更好的結(jié)果。
網(wǎng)絡(luò)結(jié)構(gòu)
Feature Purification Network 特征凈化網(wǎng)絡(luò)
模型分為兩部分:
projection network (P-net);
common feature learning network (C-net)
P-net:計(jì)算凈化的向量特征,通過將學(xué)習(xí)到的輸入文本的信息向量投影到更具區(qū)分性的語義空間中來消除共同特征的影響。
C-net:提取common features。
P-net由四部分組成:
輸入層X
特征提取器Fp
正交投影層(OPL,Orthogonal Projection Layer)
分類層Cp
C-net也由四部分組成:
輸入層X
特征提取器Fc(Fp和Fc的參數(shù)不共享)
漸變反向?qū)樱℅RL,Gradient Reverse Layer)
分類層Cc
技術(shù)的關(guān)鍵思想如下:
P-Net中特征向量fp投影到C-Net的fc的正交方向上。也就是說,將fp(從輸入文檔中提取的完整信息)投影到更具區(qū)分性的語義空間中,以進(jìn)行最終分類。
圖2:正交投影層的工作方式。這里的示例是在二維空間中。
fp表示傳統(tǒng)特征向量;
fc表示公共特征向量;
fp?是投影特征向量;
fp~是最終的正交投影特征向量。
我們首先將傳統(tǒng)特征向量fp投影到共同特征向量fc,得到fp?。
等式9中的fp?即表示對(duì)共同特征向量fc的約束。
再將fp投影到fp-fp*得到fp~
也就是說:通過將輸入的傳統(tǒng)特征向量fp投影到公共特征向量fc來限制公共特征向量的模,因此新的公共特征向量fp*的語義信息僅包含xi的公共語義信息。
這使得最終的純化特征向量fp~來自傳統(tǒng)特征向量fp,而不是與公共特征向量fc正交的任何平面中的任何向量。
最后,我們使用純化的特征向fp~進(jìn)行分類。
Experiments實(shí)驗(yàn)
1 實(shí)驗(yàn)使用數(shù)據(jù)集
2 Baselines模型
用LSTM、CNN、Transformer和BERT等基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),已驗(yàn)證特征投射的有效性。
3 實(shí)施細(xì)節(jié)
首先,我們將實(shí)驗(yàn)中的所有詞嵌入隨機(jī)初始化為200維向量,然后在訓(xùn)練過程中進(jìn)行修改(Bert除外)。對(duì)于每種類型的特征提取器,我們具有以下配置:
對(duì)于RNN模型,使用兩層LSTM進(jìn)行特征提取,每層的hidden state=256;
對(duì)于CNN模型,為了獲得更多的細(xì)粒度特征,我們分別使用了[2,3,4,5,6]的濾波器大小,每個(gè)濾波器都有100個(gè)特征圖。
對(duì)于Transformer的模型,我們使用Transformer的編碼器作為特征提取器,使用單頭和3個(gè)block。
對(duì)于Bert模型,我們微調(diào)了預(yù)訓(xùn)練的基于Bert的參數(shù)。這些設(shè)置與FP-Net中的基線完全相同。
在C-net模塊的訓(xùn)練中,我們以0.9為初始學(xué)習(xí)率的隨機(jī)梯度和隨后的退火學(xué)習(xí)率(Ganin and Lempitsky,2014)。
其中,訓(xùn)練進(jìn)度p從0線性變化為1,l0 = 0.01,α= 10和β= 0.75。在GRL中,超參數(shù)λ為[0.05,0.1,0.2,0.4,0.8,1.0]。
4 實(shí)驗(yàn)結(jié)果
5 消融實(shí)驗(yàn)與分析
消融實(shí)驗(yàn)類似于“控制變量法”。假設(shè)在某任務(wù)中,使用了A,B,C,取得了不錯(cuò)的效果,但是這個(gè)時(shí)候你并不知道效果是由A,B,C中哪一個(gè)起的作用,于是你保留A,B,移除C進(jìn)行實(shí)驗(yàn)來看一下C在整個(gè)任務(wù)中所起的作用。
結(jié)論
在本文中,我們提出了一種新的特征凈化網(wǎng)絡(luò)(FP-Net),以改進(jìn)文本分類的表示;
該方法基于特征投影。所提出的模型使用兩個(gè)子網(wǎng),一個(gè)用于識(shí)別對(duì)分類沒有區(qū)別的共同特征common features,另一個(gè)用于將傳統(tǒng)特征投射到共同特征的正交方向的特征投影;
我們當(dāng)前的方法僅用于傳統(tǒng)文本分類方法,例如LSTM,CNN和Transformer。在未來的工作中,我們將考慮將其擴(kuò)展到基于圖的方法(例如用于圖形數(shù)據(jù)的GCN),以及擴(kuò)展到基于生成的方法(例如用于對(duì)抗性學(xué)習(xí)的GAN)。
責(zé)任編輯:lq
-
文本分類
+關(guān)注
關(guān)注
0文章
18瀏覽量
7382 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5554瀏覽量
122473 -
cnn
+關(guān)注
關(guān)注
3文章
354瀏覽量
22627
原文標(biāo)題:【ACL2020】用于改進(jìn)文本分類的特征投影
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
DLP4500連續(xù)觸發(fā)投影,大約投影一百多次后,再觸發(fā)就不投影了,為什么?
用DLP4500投影正弦光柵時(shí)存在高頻噪聲,應(yīng)該如何改進(jìn)正弦光柵質(zhì)量?
dlpc3479用于dlp4710這款DMD上,該系統(tǒng)的最大投影幀率是多少?
如何使用自然語言處理分析文本數(shù)據(jù)
DMD芯片應(yīng)用于投影儀的優(yōu)勢(shì)
圖紙模板中的文本變量

評(píng)論