女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微調前給預訓練模型參數增加噪音提高效果的方法

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀

寫在前面

昨天看完NoisyTune論文,做好實驗就來了。一篇ACL2022通過微調前給預訓練模型參數增加噪音提高預訓練語言模型在下游任務的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實現,就在自己的數據上進行了實驗,發現確實有所提高,為此分享給大家;不過值得注意的是,「不同數據需要加入噪音的程度是不同」,需要自行調參。

模型

自2018年BERT模型橫空出世,預訓練語言模型基本上已經成為了自然語言處理領域的標配,「pretrain+finetune」成為了主流方法,下游任務的效果與模型預訓練息息相關;然而由于預訓練機制以及數據影響,導致預訓練語言模型與下游任務存在一定的Gap,導致在finetune過程中,模型可能陷入局部最優。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預訓練模型的參數增加少量噪音,給原始模型增加一些擾動,從而提高預訓練語言模型在下游任務的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級擾動(matrix-wise perturbing)方法來增加噪聲,定義預訓練語言模型參數矩陣為,其中,表示模型中參數矩陣的個數,擾動如下:

其中,表示從到范圍內均勻分布的噪聲;表示控制噪聲強度的超參數;表示標準差。

代碼實現如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應用到各種預訓練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發現在矩陣級均勻噪聲最優。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數據量下,NoisyTune方法相對于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強度下,效果提升不同,對于GLUE數據集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結

蠻有意思的一篇論文,加入少量噪音,提高下游微調效果,并且可插拔方便易用,可以納入到技術庫中。

本人在自己的中文數據上做了一些實驗,發現結果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強度在0.2時最佳,并且在噪聲強度小于0.1或大于0.25后,會比原始效果差。個人實驗結果,僅供參考。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 噪音
    +關注

    關注

    1

    文章

    170

    瀏覽量

    24147
  • 模型
    +關注

    關注

    1

    文章

    3487

    瀏覽量

    49995
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14011

原文標題:ACL2022 | NoisyTune:微調前加入少量噪音可能會有意想不到的效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    ,使用PaddleNLP將FineWeb數據集中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制數據,以便提升訓練效果。 ChatGPT發布后,當代大語言模型
    的頭像 發表于 03-21 18:24 ?1100次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    YOLOv5類中rgb888p_size這個參數要與模型推理和訓練的尺寸一致嗎?一致會達到更好的效果

    YOLOv5類中rgb888p_size這個參數要與模型推理和訓練的尺寸一致嗎,一致會達到更好的效果
    發表于 03-11 08:12

    從Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以將 FastSeg 大型模型轉換為中間表示 (IR): pyth
    發表于 03-05 07:22

    使用OpenVINO?訓練擴展對水平文本檢測模型進行微調,收到錯誤信息是怎么回事?

    已針對水平文本檢測模型運行OpenVINO?訓練擴展中的 微調 步驟,并收到錯誤消息: RuntimeError: Failed to find annotation files
    發表于 03-05 06:48

    用PaddleNLP在4060單卡上實踐大模型訓練技術

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAI的GPT-2模型訓練。GPT-2的訓練關鍵技術與流程與GPT-
    的頭像 發表于 02-19 16:10 ?858次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    ,減少了計算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調方法,通過分解模型參數矩陣為低秩矩陣來減少參數
    發表于 01-14 16:51

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    的應用。MAML算法通過二階優化找到對任務變化敏感的模型參數,實現了快速適應。上下文學習則引入了注意力機制,使模型能夠根據當前場景動態調整行為策略。在
    發表于 12-24 15:03

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
    的頭像 發表于 11-05 17:43 ?1259次閱讀

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    鷺島論壇數據智能系列講座第4期「訓練的基礎模型下的持續學習」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目
    的頭像 發表于 10-18 08:09 ?527次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    ai大模型訓練方法有哪些?

    AI大模型訓練方法是一個復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統一的范圍。 數據增強:通過旋轉
    的頭像 發表于 07-16 10:11 ?2964次閱讀

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定
    的頭像 發表于 07-11 10:12 ?1899次閱讀

    大語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識
    的頭像 發表于 07-11 10:11 ?890次閱讀

    模型為什么要微調?大模型微調的原理

    在人工智能(AI)領域,特別是自然語言處理(NLP)領域,大模型(如BERT、GPT系列等)的出現為許多復雜任務提供了強大的解決方案。然而,這些訓練的大模型雖然具有廣泛的適用性,但在
    的頭像 發表于 07-10 10:43 ?6927次閱讀

    人臉識別模型訓練失敗原因有哪些

    : 1.1 數據量不足 人臉識別模型需要大量的數據進行訓練,以提高模型的泛化能力。如果數據量不足,模型可能無法學習到足夠的特征,導致
    的頭像 發表于 07-04 09:17 ?1246次閱讀

    訓練模型的基本原理和應用

    訓練好的模型,這些模型通常在某些通用任務上表現出色,并且可以作為后續特定任務的起點,通過遷移學習或微調(Fine-tuning)等方式進行適應和優化。以下是對
    的頭像 發表于 07-03 18:20 ?4181次閱讀