女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA 、 Arm和Intel發布FP8標準化規范作為AI的交換格式

星星科技指導員 ? 來源:NVIDIA ? 作者:Shar Narasimhan ? 2022-10-11 11:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能處理需要跨硬件和軟件平臺的全棧創新,以滿足神經網絡日益增長的計算需求。提高效率的一個關鍵領域是使用較低精度的數字格式來提高計算效率,減少內存使用,并優化互連帶寬。

為了實現這些好處,業界已經從 32 位精度轉換為 16 位,現在甚至是 8 位精度格式。 transformer 網絡是人工智能中最重要的創新之一,尤其受益于 8 位浮點精度。我們相信,擁有一種通用的交換格式將使硬件和軟件平臺的快速發展和互操作性得以提高,從而推動計算。

NVIDIA 、 ArmIntel 聯合撰寫了一份白皮書 FP8 Formats for Deep Learning ,描述了 8 位浮點( FP8 )規范。它提供了一種通用的格式,通過優化內存使用來加速人工智能的開發,并適用于人工智能訓練和推理。此 FP8 規格有兩種變體, E5M2 和 E4M3 。

該格式在 NVIDIA 料斗體系結構中本地實現,并在初始測試中顯示出出色的結果。它將立即受益于更廣泛的生態系統所做的工作,包括 AI 框架,為開發者實現它。

兼容性和靈活性

FP8 通過硬件和軟件之間的良好平衡,最大限度地減少了與現有 IEEE 754 浮點格式的偏差,以利用現有實現,加快采用速度,并提高開發人員的生產力。

E5M2 使用五位表示指數,兩位表示尾數,是一種截斷的 IEEE FP16 格式。在需要更高精度而犧牲某些數值范圍的情況下, E4M3 格式進行了一些調整,以擴展用四位指數和三位尾數表示的范圍。

新格式節省了額外的計算周期,因為它只使用 8 位。它可以用于人工智能訓練和推理,而不需要在精度之間進行任何重鑄。此外,通過最小化與現有浮點格式的偏差,它為未來 AI 創新提供了最大的自由度,同時仍堅持當前的慣例。

高精度訓練和推理

測試提議的 FP8 格式顯示,在廣泛的用例、架構和網絡中,其精度相當于 16 位精度。變壓器、計算機視覺和 GAN 網絡的結果都表明, FP8 訓練精度與 16 位精度相似,但可以顯著提高速度。有關精度研究的更多信息,請參閱 FP8 Formats for Deep Learning 白皮書。

pYYBAGNE42eAKKP8AACCv9ceJTc299.png

圖 1.語言模型人工智能培訓

在圖 1 中,不同的網絡使用不同的精度度量( PPL 和 Loss ),如圖所示。

pYYBAGNE42eAQ7-PAAAgaylpKC0333.png

圖 2.語言模型 AI 推理

在人工智能行業領先的基準 MLPerf Inference v2.1 中, NVIDIA Hopper 利用這種新的 FP8 格式在 BERT 高精度模型上實現了 4.5 倍的加速,在不影響精度的情況下獲得了吞吐量。

走向標準化

NVIDIA 、 Arm 和 Intel 以開放、無許可證的格式發布了此規范,以鼓勵行業廣泛采用。他們還將向 IEEE 提交該提案。

通過采用一種保持準確性的可互換格式,人工智能模型將在所有硬件平臺上持續高效地運行,并有助于推動人工智能的發展。

鼓勵標準機構和整個行業

關于作者

Shar Narasimhan 是 AI 的高級產品營銷經理,專門從事 NVIDIA 的 Tesla 數據中心團隊的深度學習培訓和 OEM 業務。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9352

    瀏覽量

    377543
  • NVIDIA
    +關注

    關注

    14

    文章

    5309

    瀏覽量

    106407
  • 人工智能
    +關注

    關注

    1806

    文章

    49028

    瀏覽量

    249494
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    廣凌高校標準化考場建設解決方案

    在教育信息與考試安全雙重驅動下,標準化考場建設已成為高校提升考試管理水平的核心抓手。作為深耕教育信息領域的高新技術企業,??廣凌科技(廣凌股份)憑借“高校
    的頭像 發表于 05-29 17:04 ?212次閱讀
    廣凌高校<b class='flag-5'>標準化</b>考場建設解決方案

    摩爾線程發布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    , 支持原生FP8數據類型,支持PyTorch 2.5.0 ,并通過多項針對MUSA計算平臺的性能優化,進一步提升了對AI模型和大規模數據處理的支持能力。 FP8原生支持,國產GPU的技術突破
    的頭像 發表于 05-11 16:41 ?707次閱讀

    瑞為技術牽頭制定的國家標準《信息技術 可擴展的生物特征識別數據交換格式 第1部分:框架》正式發布

    圖像、步態圖像等模態)也一同發布。 至此,瑞為已累計牽頭及參與的國家/行業標準近30項,其中已發布實施的國家標準16項。 作為《信息技術 可
    的頭像 發表于 04-22 18:05 ?546次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現了高效的混合
    的頭像 發表于 03-17 17:05 ?606次閱讀
    摩爾線程GPU原生<b class='flag-5'>FP8</b>計算助力<b class='flag-5'>AI</b>訓練

    智能零部件管理助力中電思儀的標準化管理

    。目前,SPM以其獨有的四大關鍵性技術優勢獲得了合作伙伴的青睞。 項目評估表明SPM具有相當大的降本潛力:作為模塊標準化的落地工具,以及企業提高核心競爭力的有效手段,SPM平均降本潛力高達10%。在未來持續優化后,如果所有
    發表于 02-14 14:03

    Arm正式發布芯粒系統架構首個公開規范

    近期,Arm控股有限公司宣布其芯粒系統架構(CSA)正式推出了首個公開規范。這一舉措旨在進一步推動芯粒技術的標準化進程,并有效減少行業碎片現象,為芯片設計領域注入新的活力。 芯粒技術
    的頭像 發表于 02-08 15:19 ?608次閱讀

    Arm發布芯粒系統架構首個公開規范

    近日,Arm控股有限公司(納斯達克股票代碼:ARM,以下簡稱“Arm”)宣布了一項重要進展,其芯粒系統架構(CSA)已正式推出首個公開規范。這一舉措標志著芯粒技術
    的頭像 發表于 01-24 14:07 ?543次閱讀

    今日看點丨Arm 發布芯粒系統架構首個公開規范;納芯微推出車規級D類音頻功率放大器

    1. Arm 發布芯粒系統架構首個公開規范,加速芯片技術演進 ? Arm 控股有限公司宣布其芯粒系統架構 (CSA) 正式推出首個公開規范,
    發表于 01-24 11:18 ?1364次閱讀

    FP8在大模型訓練中的應用

    越來越多的技術團隊開始使用 FP8 進行大模型訓練,這主要因為 FP8 有很多技術優勢。比如在新一代的 GPU 上,FP8 相對于 BF16 對矩陣乘算子這樣的計算密集型算子,NVIDIA
    的頭像 發表于 01-23 09:39 ?1182次閱讀
    <b class='flag-5'>FP8</b>在大模型訓練中的應用

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能。
    的頭像 發表于 12-17 17:47 ?867次閱讀

    如何使用FP8新技術加速大模型訓練

    ,FP8 的詳細介紹可以參考此鏈接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples
    的頭像 發表于 12-09 11:30 ?1073次閱讀

    三星與SK海力士攜手推進LPDDR6-PIM產品標準化

    AI)專用低功耗DRAM的標準化,從而更好地適應當前“端側AI”(on-device AI)的發展趨勢。
    的頭像 發表于 12-03 10:42 ?760次閱讀

    FP8數據格式在大型模型訓練中的應用

    本文主要介紹了 FP8 數據格式在大型模型訓練中的應用、挑戰及最佳實踐,展示了 FP8 在提升訓練速度和效率方面的潛力和實際效果。
    的頭像 發表于 11-19 14:54 ?1685次閱讀
    <b class='flag-5'>FP8</b>數據<b class='flag-5'>格式</b>在大型模型訓練中的應用

    CAN技術的標準化之旅

    國際標準化組織 (ISO)于2024年5月27日發布了文件ISO 11898-1:2024;在此之前,于2024年3月22日,發布了文件ISO 11898-2:2024。自此,CAN (控制器局域網絡)技術的所有協議及收發器完全
    的頭像 發表于 11-07 11:48 ?1156次閱讀

    FP8模型訓練中Debug優化思路

    目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。在此,我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型訓練過程中的 debug 思路和方法,供大家參考。
    的頭像 發表于 09-06 14:36 ?930次閱讀
    <b class='flag-5'>FP8</b>模型訓練中Debug優化思路