女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

摩爾線程GPU原生FP8計算助力AI訓練

摩爾線程 ? 來源:摩爾線程 ? 2025-03-17 17:05 ? 次閱讀

近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現了高效的混合并行訓練和推理,顯著提升了訓練效率與穩定性。摩爾線程是國內率先原生支持FP8計算精度的國產GPU企業,此次開源不僅為AI訓練和推理提供了全新的國產化解決方案,更對推動國產GPU在AI大模型領域的應用具有重要意義。

▼MT-MegatronLM開源地址:

https://github.com/MooreThreads/MT-MegatronLM

▼MT-TransformerEngine開源地址:

https://github.com/MooreThreads/MT-TransformerEngine

框架介紹

MT-MegatronLM是面向全功能GPU的開源混合并行訓練框架,支持dense模型、多模態模型及MoE(混合專家)模型的高效訓練。該框架利用全功能GPU支持FP8混合精度策略、高性能算子庫muDNN與集合通信庫MCCL,可以顯著提升國產全功能GPU集群的算力利用率。

MT-TransformerEngine主要用于Transformer模型的高效訓練與推理優化,通過算子融合、并行加速策略等技術,充分釋放摩爾線程全功能GPU高密度計算的潛力和memory bound算子的效率。

技術突破與優勢

兩大框架的技術突破集中體現在硬件適配與算法創新的深度協同:

▽混合并行訓練:支持Dense、多模態及MoE模型的混合并行訓練,可靈活應對不同模型架構的復雜運算場景;

▽FP8混合訓練策略:結合摩爾線程GPU原生支持的FP8混合精度訓練策略,能夠有效提升訓練效率;

▽高性能算子庫:通過高性能算子庫muDNN與通信庫MCCL的深度集成,系統性優化了計算密集型任務與多卡協同的通信開銷;同時結合摩爾線程開源Simumax庫,可自動進行并行策略搜索,并針對不同模型和加速環境spec最大化并行訓練性能;

▽異常訓練處理:框架內置的rewind異?;謴蜋C制,可自動回滾至最近穩定節點繼續訓練,大幅提升大規模訓練的穩定性;

▽完整的兼容性:兩個框架兼容GPU主流生態,既保障了現有生態的平滑遷移,也為開發者構建自有的AI技術棧提供了底層支撐。

▼摩爾線程Simumax開源地址:

https://github.com/MooreThreads/SimuMax

實際應用效果

在實際應用中,這兩個框架的充分結合已經取得了顯著的成果。這些成果不僅驗證了框架的技術成熟度,也為國產GPU生態的規?;瘧玫於藞詫嵒A。

▽高效訓練:在全功能GPU集群上,Llama3 8B模型的訓練任務,可以利用FP8在loss幾乎無損的情況下MFU達到90%以上;(如下圖所示)

4a65906c-fff3-11ef-9310-92fbcf53809c.png

圖注:利用摩爾線程FP8混合精度加速技術在loss無損的情況下得到28%的加速

▽復現DeepSeek 滿血版訓練:摩爾線程已深度集成并開源對DeepSeek并行算法DualPipe的高效支持,MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架,成功實現DeepSeek V3訓練流程的完整復現,支持MLA、MTP及多種專家平衡策略;

▽性能大幅優化:通過多種Transformer算子融合技術,顯著提升了內存帶寬利用率,有效緩解memory bound瓶頸,進一步釋放國產GPU的硬件潛力。

持續優化與生態共建

為加速國產GPU生態發展與建設,摩爾線程將持續優化MT-MegatronLM與MT-TransformerEngine框架,并引入一系列創新功能:

▽Dual Pipe/ZeroBubble并行策略:進一步降低氣泡率,提升并行訓練效率;

▽多種FP8優化策略:獨創的FP8優化策略,提高訓練的性能和穩定性;

▽異步checkpoint策略:提高訓練過程中的容錯能力和效率;

▽優化后的重計算策略:減少計算和顯存開銷,提高訓練速度;

▽容錯訓練策略:獨創的容錯訓練算法,增強訓練過程中的容錯能力;

▽集成摩爾線程FlashMLA和DeepGemm庫:進一步釋放摩爾線程GPU的算力和FP8計算能力,提升計算性能和效率。

摩爾線程始終致力于推動開源生態的發展,通過技術開放與生態共建,加速國產全功能GPU在AI計算領域的規?;瘧?,為更多用戶提供更智能、高效的解決方案。

▼ 關于摩爾線程

摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4912

    瀏覽量

    130661
  • AI
    AI
    +關注

    關注

    87

    文章

    34256

    瀏覽量

    275399
  • 開源
    +關注

    關注

    3

    文章

    3611

    瀏覽量

    43485
  • 摩爾線程
    +關注

    關注

    2

    文章

    229

    瀏覽量

    5111

原文標題:開源MT-MegatronLM和MT-TransformerEngine|摩爾線程GPU原生FP8計算助力AI訓練

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    摩爾線程AI算力平臺AutoDL達成深度合作

    近日,摩爾線程與國內領先的AI算力平臺AutoDL宣布達成深度合作,雙方聯合推出面向個人開發者的“摩爾線程專區”,首次將國產
    的頭像 發表于 05-23 16:10 ?466次閱讀

    摩爾線程發布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    , 支持原生FP8數據類型,支持PyTorch 2.5.0 ,并通過多項針對MUSA計算平臺的性能優化,進一步提升了對AI模型和大規模數據處理的支持能力。
    的頭像 發表于 05-11 16:41 ?513次閱讀

    摩爾線程全面支持DeepSeek開源周成果

    DeepSeek開源周正式收官,作為國內率先原生支持FP8計算精度的國產GPU企業,摩爾線程迅速
    的頭像 發表于 03-04 10:06 ?416次閱讀

    摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

    自DeepSeek啟動“開源周”以來,已陸續開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構,可提供原生
    的頭像 發表于 02-27 14:40 ?494次閱讀

    FP8在大模型訓練中的應用

    越來越多的技術團隊開始使用 FP8 進行大模型訓練,這主要因為 FP8 有很多技術優勢。比如在新一代的 GPU 上,FP8 相對于 BF16
    的頭像 發表于 01-23 09:39 ?1000次閱讀
    <b class='flag-5'>FP8</b>在大模型<b class='flag-5'>訓練</b>中的應用

    GPU是如何訓練AI大模型的

    AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解
    的頭像 發表于 12-19 17:54 ?635次閱讀

    如何使用FP8新技術加速大模型訓練

    /fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進行大模型訓練具有以下優勢: 新一代 GPU 如?NVIDIA Ada Lovelace、
    的頭像 發表于 12-09 11:30 ?909次閱讀

    FP8數據格式在大型模型訓練中的應用

    本文主要介紹了 FP8 數據格式在大型模型訓練中的應用、挑戰及最佳實踐,展示了 FP8 在提升訓練速度和效率方面的潛力和實際效果。
    的頭像 發表于 11-19 14:54 ?1458次閱讀
    <b class='flag-5'>FP8</b>數據格式在大型模型<b class='flag-5'>訓練</b>中的應用

    摩爾線程成立摩爾學院,賦能GPU開發者

    近日,摩爾線程宣布正式成立摩爾學院,為GPU開發者生態建設揭開新篇章。摩爾學院作為一個專業的GPU
    的頭像 發表于 10-28 17:03 ?879次閱讀

    摩爾線程GPU與超圖軟件大模型適配:共筑國產地理空間AI新生態

    10月24日,摩爾線程公司宣布與超圖軟件達成重要合作里程碑。經過雙方的嚴格測試,摩爾線程的MTT S/X系列全功能GPU已成功與超圖軟件最新
    的頭像 發表于 10-24 11:29 ?1309次閱讀

    FP8模型訓練中Debug優化思路

    目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。在此,我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型
    的頭像 發表于 09-06 14:36 ?765次閱讀
    <b class='flag-5'>FP8</b>模型<b class='flag-5'>訓練</b>中Debug優化思路

    摩爾線程與羽人科技完成大語言模型訓練測試

    近日,摩爾線程與羽人科技攜手宣布,雙方已成功實現夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓練兼容適配。在本次測試中,羽人科技通過摩爾線程
    的頭像 發表于 08-27 16:19 ?773次閱讀

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU
    的頭像 發表于 07-31 10:51 ?1439次閱讀

    摩爾線程與智譜AI完成大模型性能測試與適配

    近日,摩爾線程與智譜AI在人工智能領域開展了一輪深入的合作,共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉及了基于
    的頭像 發表于 06-14 16:40 ?1416次閱讀

    摩爾線程與師者AI攜手完成70億參數教育AI大模型訓練測試

    近日,國內知名的GPU制造商摩爾線程與全學科教育AI大模型“師者AI”聯合宣布,雙方已成功完成了一項重要的大模型
    的頭像 發表于 06-14 16:31 ?854次閱讀