女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度模型Adan優(yōu)化器如何完成ViT的訓練

CVer ? 來源:新智元 ? 作者:新智元 ? 2022-10-31 17:03 ? 次閱讀

自Google提出Vision Transformer(ViT)以來,ViT漸漸成為許多視覺任務的默認backbone。憑借著ViT結(jié)構(gòu),許多視覺任務的SoTA都得到了進一步提升,包括圖像分類、分割、檢測、識別等。

然而,訓練ViT并非易事。除了需要較復雜的訓練技巧,模型訓練的計算量往往也較之前的CNN大很多。近日,新加坡Sea AI LAB (SAIL) 和北大ZERO Lab的研究團隊共同提出新的深度模型優(yōu)化器Adan,該優(yōu)化器可以僅用一半的計算量就能完成ViT的訓練。

此外,在計算量一樣的情況下, Adan在多個場景(涉及CV、NLP、RL)、多種訓練方式(有監(jiān)督與自監(jiān)督)和多種網(wǎng)絡結(jié)構(gòu)/算法(Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO算法)上,均獲得了性能提升。

代碼、配置文件、訓練log均已開源。

深度模型的訓練范式與優(yōu)化器

隨著ViT的提出,深度模型的訓練方式變得越來越復雜。常見的訓練技巧包括復雜的數(shù)據(jù)增強(如MixUp、CutMix、AutoRand)、標簽的處理(如label smoothing和noise label)、模型參數(shù)的移動平均、隨機網(wǎng)絡深度、dropout等。伴隨著這些技巧的混合運用,模型的泛化性與魯棒性均得到了提升,但是隨之而來的便是模型訓練的計算量變得越來越大。

在ImageNet 1k上,訓練epoch數(shù)從ResNet剛提出的90已經(jīng)增長到了訓練ViT常用的300。甚至針對一些自監(jiān)督學習的模型,例如MAE、ViT,預訓練的epoch數(shù)已經(jīng)達到了1.6k。訓練epoch增加意味著訓練時間極大的延長,急劇增加了學術(shù)研究或工業(yè)落地的成本。目前一個普遍的解決方案是增大訓練的batch size并輔助并行訓練以減少訓練時間,但是伴隨的問題便是,大的batch size往往意味著performance的下降,并且batch size越大,情況越明顯。

這主要是因為模型參數(shù)的更新次數(shù)隨著batch size的增加在急劇減少。當前的優(yōu)化器并不能在復雜的訓練范式下以較少的更新次數(shù)實現(xiàn)對模型的快速訓練,這進一步加劇了模型訓練epoch數(shù)的增長。

因此,是否存在一種新的優(yōu)化器能在較少的參數(shù)更新次數(shù)情況下更快更好地訓練深度模型?在減少訓練epoch數(shù)的同時,也能緩解batch size增加帶來的負面影響?

被忽略的沖量

要想加速優(yōu)化器的收斂速度,最直接的方法便是引入沖量。近年提出的深度模型優(yōu)化器均沿用著Adam中使用的沖量范式——重球法:

78e2dfac-57a4-11ed-a3b6-dac502259ad0.png

其中g(shù)_k是隨機噪聲,m_k是moment,eta是學習率。Adam將m_k的更新由累積形式換成了移動平均的形式,并引入二階moment(n_k)對學習率進行放縮,即:

78f78b1e-57a4-11ed-a3b6-dac502259ad0.png

然而隨著Adam訓練原始ViT失敗,它的改進版本AdamW漸漸地變成了訓練ViT甚至ConvNext的首選。但是AdamW并沒有改變Adam中的沖量范式,因此在當batch size超過4,096的時候,AdamW訓練出的ViT的性能會急劇下降。

在傳統(tǒng)凸優(yōu)化領(lǐng)域,有一個與重球法齊名的沖量技巧——Nesterov沖量算法:

790dbe16-57a4-11ed-a3b6-dac502259ad0.png

Nesterov沖量算法在光滑且一般凸的問題上,擁有比重球法更快的理論收斂速度,并且理論上也能承受更大的batch size。同重球法不同的是,Nesterov算法不在當前點計算梯度,而是利用沖量找到一個外推點,在該點算完梯度以后再進行沖量累積。

外推點能幫助Nesterov算法提前感知當前點周圍的幾何信息。這種特性使得Nesterov沖量更加適合復雜的訓練范式和模型結(jié)構(gòu)(如ViT),因為它并不是單純地依靠過去的沖量去繞開尖銳的局部極小點,而是通過提前觀察周圍的梯度,調(diào)整更新的方向。

盡管Nesterov沖量算法擁有一定的優(yōu)勢,但是在深度優(yōu)化器中,卻鮮有被應用與探索。其中一個主要的原因就是Nesterov算法需要在外推點計算梯度,在當前點更新,期間需要多次模型參數(shù)重載以及需要人為地在外推點進行back-propagation (BP)。這些不便利性極大地限制了Nesterov沖量算法在深度模型優(yōu)化器中的應用。

Adan優(yōu)化器

通過結(jié)合改寫的Nesterov沖量與自適應優(yōu)化算法,并引入解耦的權(quán)重衰減,可以得到最終的Adan優(yōu)化器。利用外推點,Adan可以提前感知周圍的梯度信息,從而高效地逃離尖銳的局部極小區(qū)域,以增加模型的泛化性。

1) 自適應的Nesterov沖量

為了解決Nesterov沖量算法中多次模型參數(shù)重載的問題,研究人員首先對Nesterov進行改寫:

7923f38e-57a4-11ed-a3b6-dac502259ad0.png

可以證明,改寫的Nesterov沖量算法與原算法等價,兩者的迭代點可以相互轉(zhuǎn)化,且最終的收斂點相同??梢钥吹?,通過引入梯度的差分項,已經(jīng)可以避免手動的參數(shù)重載和人為地在外推點進行BP。

將改寫的Nesterov沖量算法同自適應類優(yōu)化器相結(jié)合——將m_k的更新由累積形式替換為移動平均形式,并使用二階moment對學習率進行放縮:

79394cca-57a4-11ed-a3b6-dac502259ad0.png

至此已經(jīng)得到了Adan的算法的基礎(chǔ)版本。

2) 梯度差分的沖量

可以發(fā)現(xiàn),m_k的更新將梯度與梯度的差分耦合在一起,但是在實際場景中,往往需要對物理意義不同的兩項進行單獨處理,因此研究人員引入梯度差分的沖量v_k:

794c6986-57a4-11ed-a3b6-dac502259ad0.png

這里對梯度的沖量和其差分的沖量設置不同的沖量/平均系數(shù)。梯度差分項可以在相鄰梯度不一致的時候減緩優(yōu)化器的更新,反之,在梯度方向一致時,加速更新。

3) 解耦的權(quán)重衰減

對于帶L2權(quán)重正則的目標函數(shù),目前較流行的AdamW優(yōu)化器通過對L2正則與訓練loss解耦,在ViT和ConvNext上獲得了較好的性能。但是AdamW所用的解耦方法偏向于啟發(fā)式,目前并不能得到其收斂的理論保證。

基于對L2正則解耦的思想,也給Adan引入解耦的權(quán)重衰減策略。目前Adan的每次迭代可以看成是在最小化優(yōu)化目標F的某種一階近似:

79631dc0-57a4-11ed-a3b6-dac502259ad0.jpg

由于F中的L2權(quán)重正則過于簡單且光滑性很好,以至于不需要對其進行一階近似。因此,可以只對訓練loss進行一階近似而忽略L2權(quán)重正則,那么Adan的最后一步迭代將會變成:

7976c38e-57a4-11ed-a3b6-dac502259ad0.png

有趣的是,可以發(fā)現(xiàn)AdamW的更新準則是Adan更新準則在學習率eta接近0時的一階近似。因此,可從proximal 算子的角度給Adan甚至AdamW給出合理的解釋而不是原來的啟發(fā)式改進。

4) Adan優(yōu)化器

將2)和3)兩個改進結(jié)合進Adan的基礎(chǔ)版本,可以得到如下的Adan優(yōu)化器。

798c55a0-57a4-11ed-a3b6-dac502259ad0.png

Adan結(jié)合了自適應優(yōu)化器、Nesterov沖量以及解耦的權(quán)重衰減策略的優(yōu)點,能承受更大的學習率和batch size,以及可以實現(xiàn)對模型參數(shù)的動態(tài)L2正則。

5) 收斂性分析

這里跳過繁復的數(shù)學分析過程,只給出結(jié)論:

定理:在給定或未給定Hessian-smooth條件的兩種情況下,Adan優(yōu)化器的收斂速度在非凸隨機優(yōu)化問題上均能達到已知的理論下界,并且該結(jié)論在帶有解耦的權(quán)重衰減策略時仍然成立。

實驗結(jié)果

一、CV場景

1)有監(jiān)督學習——ViT模型

針對ViT模型,研究人員分別在ViT和Swin結(jié)構(gòu)上,測試了Adan的性能。

79b366a4-57a4-11ed-a3b6-dac502259ad0.png

可以看到,例如在ViT-small、ViT-base、Swin-tiny以及Swin-base上,Adan僅僅消耗了一半的計算資源就獲得了同SoTA優(yōu)化器接近的結(jié)果,并且在同樣的計算量下,Adan在兩種ViT模型上均展現(xiàn)出較大的優(yōu)勢。

此外,也在大batch size下測試了Adan的性能:

7a0c2334-57a4-11ed-a3b6-dac502259ad0.png

可以看到,Adan在各種batch size下都表現(xiàn)得不錯,且相對于專為大batch size設計的優(yōu)化器(LAMB)也具有一定的優(yōu)勢。

2)有監(jiān)督學習——CNN模型

除了較難訓練的ViT模型,研究人員也在尖銳局部極小點相對較少的CNN模型上也測試了Adan的性能——包括經(jīng)典的ResNet與較先進的ConvNext。結(jié)果如下:

7a20f354-57a4-11ed-a3b6-dac502259ad0.png

可以觀察到,不管是ResNet還是ConvNext,Adan均能在大約2/3訓練epoch以內(nèi)獲得超越SoTA的性能。

3) 無監(jiān)督學習

在無監(jiān)督訓練框架下,研究人員在最新提出的MAE上測試了Adan的表現(xiàn)。其結(jié)果如下:

7a49a722-57a4-11ed-a3b6-dac502259ad0.png

同有監(jiān)督學習的結(jié)論一致,Adan僅消耗了一半的計算量就追平甚至超過了原來的SoTA優(yōu)化器,并且當訓練epoch越小,Adan的優(yōu)勢就越明顯。

二、NLP場景

1) 有監(jiān)督學習

在NLP的有監(jiān)督學習任務上,分別在經(jīng)典的LSTM以及先進的Transformer-XL上觀察Adan的表現(xiàn)。

7a6571e6-57a4-11ed-a3b6-dac502259ad0.png

Adan在上述兩種網(wǎng)絡上,均表現(xiàn)出一致的優(yōu)越性。并且對于Transformer-XL,Adan在一半的訓練步數(shù)內(nèi)就追平了默認的Adam優(yōu)化器。

2) 無監(jiān)督學習

為了測試Adan在NLP場景下無監(jiān)督任務上的模型訓練情況。研究人員從頭開始訓練BERT:在經(jīng)過1000k的預訓練迭代后,在GLUE數(shù)據(jù)集的7個子任務上測試經(jīng)過Adan訓練的模型性能,結(jié)果如下:

7a87df60-57a4-11ed-a3b6-dac502259ad0.png

Adan在所測試的7個詞句分類任務上均展現(xiàn)出較大的優(yōu)勢。值得一提的是,經(jīng)過Adan訓練的BERT-base模型,在一些子任務上(例如RTE、CoLA以及SST-2)的結(jié)果甚至超過了Adam訓練的BERT-large.

三、RL場景

研究人員將RL常用的PPO算法里的優(yōu)化器替換為了Adan,并在MuJoCo引擎中的4個游戲上測試了Adan的性能。在4個游戲中,用Adan作為網(wǎng)絡優(yōu)化器的PPO算法,總能獲得較高的reward。

7aa89a20-57a4-11ed-a3b6-dac502259ad0.png

Adan在RL的網(wǎng)絡訓練中,也表現(xiàn)出較大的潛力。

結(jié)論與展望

Adan優(yōu)化器為目前的深度模型優(yōu)化器引入了新的沖量范式。在復雜的訓練范式下以較少的更新次數(shù)實現(xiàn)對模型的快速訓練。

實驗顯示,Adan僅需1/2-2/3的計算量就能追平現(xiàn)有的SoTA優(yōu)化器。

Adan在多個場景(涉及CV、NLP、RL)、多個訓練方式(有監(jiān)督與自監(jiān)督)和多種網(wǎng)絡結(jié)構(gòu)(ViT、CNN、LSTM、Transformer等)上,均展現(xiàn)出較大的性能優(yōu)勢。此外,Adan優(yōu)化器的收斂速度在非凸隨機優(yōu)化上也已經(jīng)達到了理論下界。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7241

    瀏覽量

    91020
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4371

    瀏覽量

    64209
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3487

    瀏覽量

    49998

原文標題:訓練ViT和MAE減少一半計算量!Sea和北大提出新優(yōu)化器Adan:深度模型都能用!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    如何才能高效地進行深度學習模型訓練?

    分布式深度學習框架中,包括數(shù)據(jù)/模型切分、本地單機優(yōu)化算法訓練、通信機制、和數(shù)據(jù)/模型聚合等模塊?,F(xiàn)有的算法一般采用隨機置亂切分的數(shù)據(jù)分配方
    的頭像 發(fā)表于 07-09 08:48 ?1.4w次閱讀
    如何才能高效地進行<b class='flag-5'>深度</b>學習<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>?

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    今天學習<基于大模型的RAG應用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學習領(lǐng)域中的一項關(guān)鍵技術(shù),它指的是在已經(jīng)預訓練好的大型
    發(fā)表于 01-14 16:51

    Pytorch模型訓練實用PDF教程【中文】

    本教程以實際應用、工程開發(fā)為目的,著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發(fā)中,主要涉及三大部分,分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)
    發(fā)表于 12-21 09:18

    深度融合模型的特點

    深度融合模型的特點,背景深度學習模型訓練完成之后,部署并應用在生產(chǎn)環(huán)境的這一步至關(guān)重要,畢竟
    發(fā)表于 07-16 06:08

    深度學習模型是如何創(chuàng)建的?

    到準備模型,然后再在邊緣的嵌入式系統(tǒng)上運行。訓練深度學習模型是過程的工作量和時間密集型部分,其中通過提供需要時間和
    發(fā)表于 10-27 06:34

    探索一種降低ViT模型訓練成本的方法

    ,Transformer架構(gòu)已成為大量計算機視覺模型的關(guān)鍵組成部分。然而,訓練大型變壓模型通常需要付出巨大的成本。例如,在4個GPU上訓練
    發(fā)表于 11-24 14:56

    深度模型中的優(yōu)化與學習課件下載

    深度模型中的優(yōu)化與學習課件下載
    發(fā)表于 04-07 16:21 ?3次下載
    <b class='flag-5'>深度</b><b class='flag-5'>模型</b>中的<b class='flag-5'>優(yōu)化</b>與學習課件下載

    基于預訓練模型和長短期記憶網(wǎng)絡的深度學習模型

    作為模型的初始化詞向量。但是,隨機詞向量存在不具備語乂和語法信息的缺點;預訓練詞向量存在¨一詞-乂”的缺點,無法為模型提供具備上下文依賴的詞向量。針對該問題,提岀了一種基于預訓練
    發(fā)表于 04-20 14:29 ?19次下載
    基于預<b class='flag-5'>訓練</b><b class='flag-5'>模型</b>和長短期記憶網(wǎng)絡的<b class='flag-5'>深度</b>學習<b class='flag-5'>模型</b>

    什么是預訓練 AI 模型?

    訓練 AI 模型是為了完成特定任務而在大型數(shù)據(jù)集上訓練深度學習模型。這些
    的頭像 發(fā)表于 04-04 01:45 ?1808次閱讀

    什么是預訓練AI模型?

    訓練 AI 模型是為了完成特定任務而在大型數(shù)據(jù)集上訓練深度學習模型。這些
    的頭像 發(fā)表于 05-25 17:10 ?1380次閱讀

    深度學習框架區(qū)分訓練還是推理嗎

    模型,以便將來能夠進行準確的預測。推理是指在訓練完成后,使用已經(jīng)訓練好的模型進行新的預測。然而,深度
    的頭像 發(fā)表于 08-17 16:03 ?1669次閱讀

    深度學習如何訓練出好的模型

    算法工程、數(shù)據(jù)派THU深度學習在近年來得到了廣泛的應用,從圖像識別、語音識別到自然語言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是,要訓練出一個高效準確的深度學習模型并不容易。不僅需要有高質(zhì)量的數(shù)
    的頭像 發(fā)表于 12-07 12:38 ?1437次閱讀
    <b class='flag-5'>深度</b>學習如何<b class='flag-5'>訓練</b>出好的<b class='flag-5'>模型</b>

    深度學習的模型優(yōu)化與調(diào)試方法

    深度學習模型訓練過程中,往往會遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學習模型進行
    的頭像 發(fā)表于 07-01 11:41 ?1625次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設計的算法。訓練一個深度學習模型
    的頭像 發(fā)表于 07-01 16:13 ?2431次閱讀

    深度學習模型的魯棒性優(yōu)化

    深度學習模型的魯棒性優(yōu)化是一個復雜但至關(guān)重要的任務,它涉及多個方面的技術(shù)和策略。以下是一些關(guān)鍵的優(yōu)化方法: 一、數(shù)據(jù)預處理與增強 數(shù)據(jù)清洗 :去除數(shù)據(jù)中的噪聲和異常值,這是提高
    的頭像 發(fā)表于 11-11 10:25 ?896次閱讀