近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現了高效的混合并行訓練和推理,顯著提升了訓練效率與穩定性。摩爾線程是國內率先原生支持FP8計算精度的國產GPU企業,此次開源不僅為AI訓練和推理提供了全新的國產化解決方案,更對推動國產GPU在AI大模型領域的應用具有重要意義。
▼MT-MegatronLM開源地址:
https://github.com/MooreThreads/MT-MegatronLM
▼MT-TransformerEngine開源地址:
https://github.com/MooreThreads/MT-TransformerEngine
框架介紹
MT-MegatronLM是面向全功能GPU的開源混合并行訓練框架,支持dense模型、多模態模型及MoE(混合專家)模型的高效訓練。該框架利用全功能GPU支持FP8混合精度策略、高性能算子庫muDNN與集合通信庫MCCL,可以顯著提升國產全功能GPU集群的算力利用率。
MT-TransformerEngine主要用于Transformer模型的高效訓練與推理優化,通過算子融合、并行加速策略等技術,充分釋放摩爾線程全功能GPU高密度計算的潛力和memory bound算子的效率。
技術突破與優勢
兩大框架的技術突破集中體現在硬件適配與算法創新的深度協同:
▽混合并行訓練:支持Dense、多模態及MoE模型的混合并行訓練,可靈活應對不同模型架構的復雜運算場景;
▽FP8混合訓練策略:結合摩爾線程GPU原生支持的FP8混合精度訓練策略,能夠有效提升訓練效率;
▽高性能算子庫:通過高性能算子庫muDNN與通信庫MCCL的深度集成,系統性優化了計算密集型任務與多卡協同的通信開銷;同時結合摩爾線程開源Simumax庫,可自動進行并行策略搜索,并針對不同模型和加速環境spec最大化并行訓練性能;
▽異常訓練處理:框架內置的rewind異?;謴蜋C制,可自動回滾至最近穩定節點繼續訓練,大幅提升大規模訓練的穩定性;
▽完整的兼容性:兩個框架兼容GPU主流生態,既保障了現有生態的平滑遷移,也為開發者構建自有的AI技術棧提供了底層支撐。
▼摩爾線程Simumax開源地址:
https://github.com/MooreThreads/SimuMax
實際應用效果
在實際應用中,這兩個框架的充分結合已經取得了顯著的成果。這些成果不僅驗證了框架的技術成熟度,也為國產GPU生態的規?;瘧玫於藞詫嵒A。
▽高效訓練:在全功能GPU集群上,Llama3 8B模型的訓練任務,可以利用FP8在loss幾乎無損的情況下MFU達到90%以上;(如下圖所示)
圖注:利用摩爾線程FP8混合精度加速技術在loss無損的情況下得到28%的加速
▽復現DeepSeek 滿血版訓練:摩爾線程已深度集成并開源對DeepSeek并行算法DualPipe的高效支持,MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架,成功實現DeepSeek V3訓練流程的完整復現,支持MLA、MTP及多種專家平衡策略;
▽性能大幅優化:通過多種Transformer算子融合技術,顯著提升了內存帶寬利用率,有效緩解memory bound瓶頸,進一步釋放國產GPU的硬件潛力。
持續優化與生態共建
為加速國產GPU生態發展與建設,摩爾線程將持續優化MT-MegatronLM與MT-TransformerEngine框架,并引入一系列創新功能:
▽Dual Pipe/ZeroBubble并行策略:進一步降低氣泡率,提升并行訓練效率;
▽多種FP8優化策略:獨創的FP8優化策略,提高訓練的性能和穩定性;
▽異步checkpoint策略:提高訓練過程中的容錯能力和效率;
▽優化后的重計算策略:減少計算和顯存開銷,提高訓練速度;
▽容錯訓練策略:獨創的容錯訓練算法,增強訓練過程中的容錯能力;
▽集成摩爾線程FlashMLA和DeepGemm庫:進一步釋放摩爾線程GPU的算力和FP8計算能力,提升計算性能和效率。
摩爾線程始終致力于推動開源生態的發展,通過技術開放與生態共建,加速國產全功能GPU在AI計算領域的規?;瘧?,為更多用戶提供更智能、高效的解決方案。
▼ 關于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。
我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。
-
gpu
+關注
關注
28文章
4912瀏覽量
130661 -
AI
+關注
關注
87文章
34256瀏覽量
275399 -
開源
+關注
關注
3文章
3611瀏覽量
43485 -
摩爾線程
+關注
關注
2文章
229瀏覽量
5111
原文標題:開源MT-MegatronLM和MT-TransformerEngine|摩爾線程GPU原生FP8計算助力AI訓練
文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論