經(jīng)常會收到一些比較簡要的技術(shù)咨詢,描述了是什么任務(wù),發(fā)現(xiàn)用BERT粗暴精調(diào)效果不好之后,問我有什么辦法可以提升。
在面對第一把梭就失敗時,我通常是這么判斷的:
- 如果效果差的很離譜,比如二分類準(zhǔn)確率在60%以下,那大概率是模型有問題,開始用小數(shù)據(jù)集debug
- 如果有點效果,但一言難盡,那估計是數(shù)據(jù)有問題,要不然噪聲多,要不然是真的難,可以自己看一下訓(xùn)練集,如果人看完后在幾秒內(nèi)都不能給出答案,就別太指望模型可以做好
在第一把效果還行的情況下,推薦嘗試以下策略:
- In-Domain Further Pre-train:利用同領(lǐng)域下的無監(jiān)督數(shù)據(jù)繼續(xù)MLM預(yù)訓(xùn)練,這個方法我真的百試不厭,一般用一兩百萬的數(shù)據(jù)就能提升1-2個點
- Within-Task Further Pre-Training:利用不同領(lǐng)域的同任務(wù)數(shù)據(jù)預(yù)先精調(diào),選通用一些的一般也有提升
- Multi-Task Fine-Tuning:利用不同任務(wù)預(yù)先精調(diào)
- Layer-wise Decreasing Layer Rate:每層學(xué)到的知識都是不同的,前面幾層會更通用,所以學(xué)的時候可以用小一點的學(xué)習(xí)率,防止災(zāi)難性遺忘
- Features from Different layers:把不同層的輸出集成起來,不過這個方法不一定有提升
- 長文本處理:截斷或使用層次化編碼
以上這些方法,都出自復(fù)旦邱錫鵬老師的《How to fine-tune BERT for text classification?》,該文進行了各種詳細(xì)的實驗,得出了不少有用的結(jié)論,推薦大家去學(xué)習(xí)。即使有的方法在論文數(shù)據(jù)集中表現(xiàn)一般,在自己的數(shù)據(jù)上也可以嘗試。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25415 -
DEBUG
+關(guān)注
關(guān)注
3文章
94瀏覽量
20524 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22602
發(fā)布評論請先 登錄
保持電容性負(fù)載穩(wěn)定的六種方法
linux下查看網(wǎng)卡流量的六種方法
六種常見的伺服電機故障以及相對應(yīng)的電機維修方法
個人制作電路板的六種方法及操作步驟
PCB溶液濃度的六種計算方法
手機NFC的六種實用用法
導(dǎo)致開關(guān)電源嘯叫的六種情況及解決方法

評論