亚洲国产精品不卡在线,天天爱天天乳天天插,久草久草视频

自DeepSeek啟動“開源周”以來，已陸續開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構，可提供原生FP8計算能力，同時升級了高性能線性代數模板庫MUTLASS，快速支持了FlashMLA。不僅如此，摩爾線程還基于MUTLASS在全新GPU架構上優化實現了FP8矩陣乘法，支持DeepGEMM的相應功能，充分展示了摩爾線程MUSA架構和全功能GPU在生態兼容與快速適配上的強大優勢。

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理內核開源倉庫，旨在加速MLA機制的計算，特別適用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，為 V3/R1的訓練與推理提供強大動力。這兩個重要的開源倉庫均基于高性能通用矩陣乘法（GEMM）的C++模板庫進行開發。

摩爾線程基于新一代計算架構MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計算引擎及數據搬運引擎，能夠提供原生FP8計算能力。升級的MUTLASS高性能線性代數模板庫支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優化參考實現，包括基于FlashAttention3思想實現的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內核函數。得益于全新的Tensor計算引擎，FP8計算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅實基礎。

借助MUTLASS 0.2.0，摩爾線程發布開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進行兼容部署。同時摩爾線程MUTLASS提供了一個全新的參考實現，充分汲取FlashAttention3的先進算法思想，針對摩爾線程GPU設計了全新的計算流水線。這一設計能夠有效掩藏數據搬運的延遲和Softmax計算的開銷，充分發揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。

作為國內率先原生支持FP8計算精度的國產GPU企業，摩爾線程迅速響應，并快速適配DeepSeek的各個開源倉庫，旨在為更多GPU開發者賦能。摩爾線程始終致力于推動開源生態的發展，通過技術開放與生態共建，加速國產全功能GPU在AI計算領域的規?；瘧?，為更多用戶提供更智能、高效的解決方案。

關于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎設施和一站式解決方案，為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業，為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4909

瀏覽量
130633
開源

開源

+關注

關注
3

文章
3582

瀏覽量
43457
摩爾線程

摩爾線程

+關注

關注
2

文章
229

瀏覽量
5089
DeepSeek

DeepSeek

+關注

關注
1

文章
772

瀏覽量
1315

原文標題：原生FP8計算 + MUTLASS｜摩爾線程高效完成DeepSeek開源庫FlashMLA和DeepGEMM的適配

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關注！文章轉載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

評論

摩爾線程開源高性能線性代數模板庫MUTLASS

摩爾線程完成股改，籌備上市

摩爾線程與超圖軟件完成產品兼容認證

摩爾線程與羽人科技完成大語言模型訓練測試

摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

摩爾線程與智譜AI完成大模型性能測試與適配