啊啊啊啊想要,男人邪恶网站,在线日本看片免费人成视久网

寫在前面

昨天看完NoisyTune論文，做好實驗就來了。一篇ACL2022通過微調前給預訓練模型參數增加噪音提高預訓練語言模型在下游任務的效果方法-NoisyTune，論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址：https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實現，就在自己的數據上進行了實驗，發現確實有所提高，為此分享給大家；不過值得注意的是，「不同數據需要加入噪音的程度是不同」，需要自行調參。

模型

自2018年BERT模型橫空出世，預訓練語言模型基本上已經成為了自然語言處理領域的標配，「pretrain+finetune」成為了主流方法，下游任務的效果與模型預訓練息息相關；然而由于預訓練機制以及數據影響，導致預訓練語言模型與下游任務存在一定的Gap，導致在finetune過程中，模型可能陷入局部最優。

為了減輕上述問題，提出了NoisyTune方法，即，在finetune前加入給預訓練模型的參數增加少量噪音，給原始模型增加一些擾動，從而提高預訓練語言模型在下游任務的效果，如下圖所示，

通過矩陣級擾動（matrix-wise perturbing）方法來增加噪聲，定義預訓練語言模型參數矩陣為，其中，表示模型中參數矩陣的個數，擾動如下：

其中，表示從到范圍內均勻分布的噪聲；表示控制噪聲強度的超參數；表示標準差。

代碼實現如下：

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法，可以應用到各種預訓練語言模型中，可插拔且操作簡單。

如下表所示，在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯的效果。

并且比較的四種不同增加噪聲的方法，發現在矩陣級均勻噪聲最優。

在不同數據量下，NoisyTune方法相對于finetune均有所提高。

在不同噪聲強度下，效果提升不同，對于GLUE數據集，在0.1-0.15間為最佳。

總結

蠻有意思的一篇論文，加入少量噪音，提高下游微調效果，并且可插拔方便易用，可以納入到技術庫中。

本人在自己的中文數據上做了一些實驗，發現結果也是有一些提高的，一般在0.3%-0.9%之間，但是噪聲強度在0.2時最佳，并且在噪聲強度小于0.1或大于0.25后，會比原始效果差。個人實驗結果，僅供參考。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

噪音

噪音

+關注

關注
1

文章
170

瀏覽量
24147
模型

模型

+關注

關注
1

文章
3487

瀏覽量
49995
自然語言處理

自然語言處理

+關注

關注
1

文章
628

瀏覽量
14011

原文標題：ACL2022 | NoisyTune：微調前加入少量噪音可能會有意想不到的效果

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

微調前給預訓練模型參數增加噪音提高效果的方法

寫在前面

模型

總結

評論