女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

1024塊TPU在燃燒!將BERT預訓練模型的訓練時長從3天縮減到了76分鐘

電子工程師 ? 來源:lp ? 2019-04-04 16:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“Jeff Dean稱贊,TensorFlow官方推特支持,BERT目前工業界最耗時的應用,計算量遠高于ImageNet。我們將BERT的訓練時間從三天縮短到了一小時多。”UC Berkeley大學在讀博士尤洋如是說道。

近日,來自Google、UC Berkeley、UCLA研究團隊再度合作,成功燃燒1024塊TPU,將BERT預訓練模型的訓練時長從3天縮減到了76分鐘。batch size技術是加速神經網絡訓練的關鍵,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中,作者提出了LAMB優化器,它支持自適應元素更新和分層校正。

論文傳送門:https://arxiv.org/pdf/1904.00962.pdf

論文摘要:batch size增加到很大時的模型訓練是加速大型分布式系統中深度神經網絡訓練的關鍵。但是,這種模型訓練很難,因為它會導致一種泛化差距。直接優化通常會導致測試集上的準確性下降。

BERT是一種先進的深度學習模型,它建立在語義理解的深度雙向轉換器上。當我們增加batch size的大小(如超過8192)時,此前的模型訓練技巧在BERT上表現得并不好。BERT預訓練也需要很長時間才能完成,如在16個TPUv3上大約需要三天。

為了解決這個問題,我們提出了LAMB優化器,可將batch size擴展到65536,且不會降低準確率。LAMB是一個通用優化器,batch size大小均使用,且除了學習率之外不需要別的參數調整。

基線BERT-Large模型需要100萬次迭代才能完成預訓練,而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進行內存限制,接近TPUv3 pod,結果可在76分鐘內完成BERT訓練。

據悉,該論文的一作是來自UC Berkeley計算機科學部的在讀博士尤洋,同時也是Google Brain的實習生。據公開信息顯示,尤洋的導師是美國科學院與工程院院士,ACM/IEEE fellow,伯克利計算機系主任,以及首批中關村海外顧問James Demmel教授。他當前的研究重點是大規模深度學習訓練算法的分布式優化。2017年9月,尤洋等人的新算法以24分鐘完成ImageNet訓練,刷新世界紀錄。

在此之前,他曾在英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等機構實習。尤洋本科就讀于中國農業大學計算機系,碩士保送清華大學計算機系,是一名杠杠的理工學霸!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103622
  • TPU
    TPU
    +關注

    關注

    0

    文章

    154

    瀏覽量

    21201
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122794
  • 訓練模型
    +關注

    關注

    1

    文章

    37

    瀏覽量

    3964

原文標題:1024塊TPU在燃燒!BERT訓練從3天縮短到76分鐘 | 技術頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP4060單卡上實踐大模型訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言
    的頭像 發表于 03-21 18:24 ?1683次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發表于 03-11 07:18

    Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以 FastSeg
    發表于 03-05 07:22

    用PaddleNLP4060單卡上實踐大模型訓練技術

    作者:算力魔方創始人/英特爾創新大使劉力 之前我們分享了《從零開始訓練一個大語言模型需要投資多少錢》,其中高昂的訓練費用讓許多對大模型
    的頭像 發表于 02-19 16:10 ?999次閱讀
    用PaddleNLP<b class='flag-5'>在</b>4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    模型訓練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個用于簡化和加速深度學習模型訓練的庫,它支持多種硬件配置上進行分布式訓練,包括 CPU、GPU、
    的頭像 發表于 01-14 14:24 ?717次閱讀

    KerasHub統一、全面的訓練模型

    深度學習領域正在迅速發展,處理各種類型的任務中,訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這一動向的前沿。Keras 擁有專用的內
    的頭像 發表于 12-20 10:32 ?499次閱讀

    GPU是如何訓練AI大模型

    AI模型訓練過程中,大量的計算工作集中矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
    的頭像 發表于 12-19 17:54 ?747次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。
    的頭像 發表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量的數據、計算資源和專業知識。以下是訓練LLM模型的一般步驟,以及一些關鍵考慮因素: 定義目標和需求 : 確定你的L
    的頭像 發表于 11-08 09:30 ?1523次閱讀

    Llama 3 模型訓練技巧

    Llama 3 模型,假設是指一個先進的人工智能模型,可能是一個虛構的或者是一個特定領域的術語。 1. 數據預處理 數據是任何機器學習模型的基礎。
    的頭像 發表于 10-27 14:24 ?876次閱讀

    如何訓練自己的AI大模型

    訓練自己的AI大模型是一個復雜且耗時的過程,涉及多個關鍵步驟。以下是一個詳細的訓練流程: 一、明確需求和目標 首先,需要明確自己的需求和目標。不同的任務和應用領域需要不同類型的AI模型
    的頭像 發表于 10-23 15:07 ?4984次閱讀

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    神經網絡,特別是訓練的基礎模型研究得到了廣泛的應用,但其仍然主要依賴于大量樣本上的批量式訓練
    的頭像 發表于 10-18 08:09 ?595次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    如何訓練ai大模型

    可靠的來源獲取數據,如公開數據集、內部數據庫或第三方數據提供商。 2. 數據清洗 去除重復數據 :確保數據集中沒有重復項,以避免訓練過程中引入冗余信息。 處理缺失值 :對于缺失的數據,可以采取填充、刪除或插值等方法進行處
    的頭像 發表于 10-17 18:17 ?2629次閱讀

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進行AI計算

    電子發燒友網報道(文/李彎彎)7月30日消息,蘋果公司周一一篇技術論文中表示,支撐其人工智能系統Apple Intelligence的兩個人工智能模型谷歌設計的云端芯片上進行
    的頭像 發表于 07-31 01:08 ?3955次閱讀

    蘋果揭示AI新動向:Apple Intelligence模型谷歌云端芯片上訓練

    蘋果公司最新的技術論文中披露了一項重要信息,其全新的人工智能系統Apple Intelligence所依賴的模型并非傳統上大型科技公司首選的NVIDIA GPU,而是選擇了谷歌設計的云端芯片上進行
    的頭像 發表于 07-30 15:00 ?847次閱讀