女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPipe是什么,效果如何?為什么要對跨加速器的模型進行分區?

DPVg_AI_era ? 來源:lp ? 2019-03-06 09:04 ? 次閱讀

加速DNN模型訓練速度方法中,數據并行受到單個加速器可支持模型大小的限制;而模型并行因為DNN順序性導致大量算力浪費。目前Google推出GPipe,將兩種方法的優勢進行結合,解決了兩者的劣勢,成功提升訓練速度。

深度神經網絡(DNN)已經推動了許多機器學習任務,比如語音識別,視覺識別和語言處理。

BigGan、Bert和GPT2.0的最新進展表明,越大的DNN模型,越能帶來更好的性能。

而視覺識別任務的過去進展也表明,模型大小和分類準確性之間,存在很強的相關性。

例如2014年ImageNet視覺識別挑戰賽中,獲勝者GoogleNet使用400萬參數,精確度達到了74.8%。

而2017年ImageNet挑戰賽的獲勝者Squeeze-and-Excitation Networks,使用1.5億參數,精確度達到了82.7%。

僅僅3年,數據處理能力翻了36番。而在同一時期,GPU內存僅增加了約3倍。

當前最先進的圖像模型,已經達到了云TPUv2內存的可用上限。因此,迫切需要一種更高效、可擴展的基礎設施,以實現大規模深度學習,并克服當前加速器的內存限制。

ImageNet精度和模型大小之間的強相關性

基于以上目的,Google推出了GPipe。

GPipe是什么,效果如何?

GPipe是一個分布式機器學習、可擴展的管道并行庫,可以學習巨型深度神經網絡。

使用同步隨機梯度下降和管道并行性進行訓練,適用于由多個連續層組成的任何DNN。

GPipe允許研究人員輕松部署更多加速器來訓練更大的模型,并在不調整超參數的情況下,達到提升性能的效果。

GPipe將跨加速器和管道執行的網絡層進行分區,以便實現對硬件更高的利用率,同時利用重新計算來將激活的內存使用降至最低。

例如,使用8個加速器的分區,GPipe就可以訓練25倍大神經網絡。

而GPipe也幾乎實現了線性加速。使用4倍數量的加速器,處理同一個模型的速度提升了3.5倍;16倍加速器速度提升11倍。

同時它也要保證計算的梯度和分區的數量保持一致,從而在不對模型的參數做任何改動的前提下,都能保持線性加速。

目前,核心GPipe庫已在Lingvo框架下開源。

為什么要對跨加速器的模型進行分區?

有兩種標準方法可以加速DNN模型:

數據并行方法,使用更多的機器并將輸入數據分開

模型并行性。將模型移動到如GPU或TPU等具有加速模型訓練的特殊硬件

然而加速器的內存、與主機的通信帶寬均有限。因此模型并行性就需要將模型進行分割,將不同的分區分配給不通過的加速器。

可是由于由于DNN的順序性,這種樸素的策略可能導致在計算期間,只有一個加速器處于激活狀態,導致大量算力的浪費。

而標準數據并行方法是允許在多個加速器上,同時訓練不同輸入數據的相同模型,但每個加速器可支持模型大小又有限制。

GPipe的做法是將模型分割,并劃分給不同的加速器,自動將小Batch拆分為更小的微Batch,這樣就實現了跨多個加速器的高效訓練。

此外,因為梯度一直在微批次中累積,所以分區數量不會影響模型質量。

Time部分:由于網絡的連續性,幼稚模型并行策略導致嚴重的未充分利用。 一次只有一個加速器處于活動狀態

Bubble部分:GPipe將輸入小批量分成較小的微批次,使不同的加速器可以同時在單獨的微批次上工作

使用GPipe和不使用,之間的差異有多大?

一個TPUv2有8個加速器核心和64GB內存(每個加速器8GB),由于內存限制,單個加速器可以訓練的參數量上限是8200萬。

借助反向傳播和批量分割中的重新計算,GPipe將中間激活內存從6.26GB減少到3.46GB,將單個加速器參數處理上限提升至3.18億個。

我們還看到,通過管道并行性,最大模型大小與分區數成正比,如預期的那樣。

通過GPipe,AmoebaNet能夠在云TPUv2的8個加速器上加入18億個參數,比沒有GPipe的情況下多25倍。

Google測量了GPipe對AmoebaNet-D模型吞吐量的影響。效率和加速器的數量幾乎是呈線性加速,8個加速器+8個分區,比2個加速器+2個分區快2.5倍。

TPUv3效果更好。在1024個令牌句子上啟用了80億個參數Transformer語言模型,16個加速器將速度提升了11倍

使用GPipe加速AmoebaNet-D,這種模型不適合一個加速器

基線naive-2是將模型拆分為兩個分區時本機分區方法的性能

Pipeline-k指的是GPipe的性能,它將模型分成帶有k個加速器的k個分區

GPipe還可以通過使用更多加速器來擴展訓練,而無需更改超參數。因此,它可以與數據并行性相結合,以互補的方式使用更多的加速器來擴展神經網絡訓練。

GPipe精確度能達到多少?

前面我們提到,處理的數據量越大,獲得的精度就越高。

Google在ImageNet ILSVRC-2012數據集上,使用Cloud TPUv2訓練了一個有5.57億參數、480 x 480輸入圖像尺寸的AmoebaNet-B模型。

該網絡被分成4個分區,這個巨型模型在多個流行數據集上表現良好,在沒有任何外部數據的情況下,精度達到了最先進的84.3% top-1,以及97% top-5的single-crop驗證準確度。

大型神經網絡不僅適用于ImageNet等數據集,還通過遷移學習,與其他數據集息息相關。

目前我們已知ImageNet模型越好,遷移就越好。Google在CIFAR10和CIFAR100數據集上進行了遷移學習實驗,將最佳公布的CIFAR-10精度提高到99%,將CIFAR-100精度提高到91.3%。

哪里能獲取到GPipe?

Github:

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 加速器
    +關注

    關注

    2

    文章

    823

    瀏覽量

    38930
  • 神經網絡
    +關注

    關注

    42

    文章

    4808

    瀏覽量

    102817
  • 機器學習
    +關注

    關注

    66

    文章

    8492

    瀏覽量

    134117

原文標題:谷歌開源效率怪獸GPipe,速度提升25倍,CIFAR-10精度達到99%

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    基于雙向塊浮點量化的大語言模型高效加速器設計

    本文提出雙向塊浮點(BBFP)量化格式及基于其的LLMs加速器BBAL,通過雙向移位與重疊位設計顯著降低量化誤差,提升非線性計算效率,實現精度、吞吐量和能效的顯著優化,相關成果被國際頂級會議 DAC 2025 接收。
    的頭像 發表于 05-14 13:40 ?910次閱讀
    基于雙向塊浮點量化的大語言<b class='flag-5'>模型</b>高效<b class='flag-5'>加速器</b>設計

    第三期 “亞馬遜云科技創業加速器” 正式啟動

    新 助力生成式 AI 初創企業釋放潛能,加速全球化進程 ? 北京 ——2025 年 4 月 18 日 亞馬遜云科技今日宣布,第三期 "亞馬遜云科技創業加速器" 正式啟動。亞馬遜云科技將聯合包括啟明創
    發表于 04-18 10:46 ?113次閱讀

    小型加速器中子源監測系統解決方案

    小型加速器中子源是一種基于先進加速器技術的中子產生裝置,憑借體積小、成本低、安全性高的優勢,在醫學、工業、科研、安全、能源等多個領域展現出巨大的應用潛力和價值。無論是用于醫學領域的精準放療,還是工業
    的頭像 發表于 03-13 11:19 ?541次閱讀
    小型<b class='flag-5'>加速器</b>中子源監測系統解決方案

    英特爾Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    Pro模型進行了深度優化。 這一優化舉措使得AI開發者能夠以更低的成本和更高的效率實現復雜任務的部署與優化。英特爾Gaudi 2D AI加速器通過其卓越的計算能力和高度優化的軟件棧,為Janus Pro
    的頭像 發表于 02-10 11:10 ?551次閱讀

    DeepSeek發布Janus Pro模型,英特爾Gaudi 2D AI加速器優化支持

    Gaudi 2D AI加速器現已針對該模型進行了全面優化。這一優化舉措使得AI開發者能夠更輕松地實現復雜任務的部署與優化,從而有效滿足行業應用對于推理算力的迫切需求。 英特爾Gaudi 2D AI
    的頭像 發表于 02-08 14:35 ?563次閱讀

    英偉達AI加速器新藍圖:集成硅光子I/O,3D垂直堆疊 DRAM 內存

    冷板。 在英偉達給出的模型中,每個 AI 加速器復合體包含 4 個 GPU 模塊,每個 GPU 模塊與 6 個小型 DRAM 內存
    的頭像 發表于 12-13 11:37 ?567次閱讀
    英偉達AI<b class='flag-5'>加速器</b>新藍圖:集成硅光子I/O,3D垂直堆疊 DRAM 內存

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創意加速器

    加速器
    龍智DevSecOps
    發布于 :2024年11月26日 13:42:47

    IBM將在云平臺部署AMD加速器

    IBM與AMD近期宣布了一項重要合作協議,根據協議,IBM將在其云平臺上部署AMD Instinct MI300X加速器。這一舉措旨在提升企業客戶在生成式AI模型方面的性能和能效,進一步推動AI技術的創新與應用。
    的頭像 發表于 11-19 16:24 ?507次閱讀

    IBM與AMD攜手將在IBM云上部署AMD Instinct MI300X加速器

    近日,全球領先的科技企業IBM與AMD共同宣布了一項重要合作。雙方計劃在IBM云上部署AMD的Instinct MI300X加速器服務,以滿足企業客戶對于高性能和高效能AI模型的需求。 據悉,這項
    的頭像 發表于 11-19 11:03 ?764次閱讀

    磁調制式電流傳感在粒子加速器中的應用

    粒子加速器是一種利用電磁場加速帶電粒子(如質子、電子、離子等)至極高速度的裝置。其工作原理基于洛倫茲力定律,即當帶電粒子在電磁場中運動時,會受到垂直于其速度方向的力作用,從而改變其運動狀態。粒子
    的頭像 發表于 11-14 11:43 ?501次閱讀

    深度學習GPU加速效果如

    圖形處理(GPU)憑借其強大的并行計算能力,成為加速深度學習任務的理想選擇。
    的頭像 發表于 10-17 10:07 ?535次閱讀

    具有邊沿速率加速器的TXB和TXS電壓電平轉換的注意事項

    電子發燒友網站提供《具有邊沿速率加速器的TXB和TXS電壓電平轉換的注意事項.pdf》資料免費下載
    發表于 09-04 09:52 ?0次下載
    具有邊沿速率<b class='flag-5'>加速器</b>的TXB和TXS電壓電平轉換<b class='flag-5'>器</b>的注意事項

    利用邊沿速率加速器和自動感應電平轉換

    電子發燒友網站提供《利用邊沿速率加速器和自動感應電平轉換.pdf》資料免費下載
    發表于 09-02 11:58 ?1次下載
    利用邊沿速率<b class='flag-5'>加速器</b>和自動感應電平轉換<b class='flag-5'>器</b>

    什么是神經網絡加速器?它有哪些特點?

    神經網絡加速器是一種專門設計用于提高神經網絡計算效率的硬件設備。隨著深度學習技術的快速發展和廣泛應用,神經網絡模型的復雜度和計算量急劇增加,對計算性能的要求也越來越高。傳統的通用處理(CPU
    的頭像 發表于 07-11 10:40 ?881次閱讀

    “白地板”方案,智算中心加速器

    明德源能白地板方案,智算中心加速器
    的頭像 發表于 06-21 11:54 ?1102次閱讀