寒武紀思元370芯片是基于7nm制程工藝,思元370是寒武紀首款采用chiplet(芯粒)技術的AI芯片,集成了390億個晶體管,最大算力高達256TOPS(INT8),是寒武紀第二代產品思元270算力的2倍。憑借寒武紀最新智能芯片架構MLUarch03,思元370實測性能表現更為優秀。思元370也是國內第一款公開發布支持LPDDR5內存的云端AI芯片,內存帶寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。搭載MLU-Link?多芯互聯技術,在分布式訓練或推理任務中為多顆思元370芯片提供高效協同能力。全新升級的寒武紀基礎軟件平臺,新增推理加速引擎MagicMind,實現訓推一體,大幅提升了開發部署的效率,降低用戶的學習成本、開發成本和運營成本。
核心優勢
先進chiplet技術
寒武紀首次采用chiplet技術將2顆AI計算芯粒封裝為一顆AI芯片,通過不同芯粒組合規格多樣化的產品,為用戶提供適用不同場景的高性價比AI芯片。
MLUarch03芯片架構
新一代張量運算單元,內置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術,在軟件融合的基礎上大幅減少算子執行時間。
MagicMind推理加速引擎
業內首個基于MLIR圖編譯技術達到商業化部署能力的推理引擎。用戶僅需投入極少的開發成本,即可將推理業務部署到寒武紀全系產品上,并獲得頗具競爭力的性能。
訓推一體軟件開發平臺
寒武紀基礎軟件平臺整合了訓練和推理的全部底層軟件棧,包括底層驅動、運行時庫、算子庫以及工具鏈等,將MagicMind和人工智能框架Tensorflow,Pytorch深度融合,實現訓推一體。
低功耗高帶寬LPDDR5內存
思元370芯片在業內率先支持LPDDR5內存,高帶寬且低功耗,內存帶寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍,可在板卡有限的功耗范圍內給AI芯片分配更多的能源,輸出更強大的算力。
新一代編解碼單元
全新視頻圖像編解碼單元,可支持132路1080p視頻解碼,支持10路8K視頻解碼。視頻編碼時,在相同圖像質量(全高清視頻PSNR)的情況下比上一代產品節省42%帶寬,有效降低帶寬成本。
MLU-Link多芯互聯技術
MLU-Link多芯互聯技術,搭載于寒武紀思元370芯片,為每顆芯片提供200GB/s的額外跨芯片直接通訊能力。在思元370應對多卡多芯并行任務時,提供更高效的并行效率。
為AI浮點計算優化
思元370芯片具備完整的張量浮點運算單元,可支持AI加速中繁重的FP32、FP16或BF16計算任務,讓計算的選擇變得更簡單。
思元370系列板卡與業內主流GPU性能對比
*** 測試環境:MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU數據:ResNet-50來自于相關產品官網,Transformer、VGG16、YOLOv3均取自實測最大吞吐性能。
-
寒武紀
+關注
關注
11文章
199瀏覽量
74210 -
AI芯片
+關注
關注
17文章
1968瀏覽量
35689 -
chiplet
+關注
關注
6文章
452瀏覽量
12861
發布評論請先 登錄
評論