在大模型邁向規模化應用的新階段,推理性能成為決定AI落地成敗的關鍵因素。中軟國際智算中心積極響應國產智算體系建設戰略,率先完成華為昇騰“大規模專家并行”(EP)推理方案驗證,在DeepSeek-R1模型推理任務中實現3倍單卡吞吐性能提升,樹立國產高效推理的新標桿。
大規模專家并行推理(Large-Scale Expert Parallel Inference)是一項面向混合專家(MoE)架構大模型的高效推理技術,能夠將模型內部多個“專家”子網絡部署至不同AI卡,借助并行計算與智能路由機制,實現高吞吐、低延遲的模型推理能力。
中軟國際智算中心聯合昇騰團隊,圍繞高并發推理和低延遲響應的關鍵訴求,進行了深度適配與系統級優化,充分釋放昇騰AI芯片的專家并行能力,實現資源利用率與推理性能的雙重突破,完成以下三大核心技術挑戰的突破:
通信開銷瓶頸:
通過專家親和部署策略,減少跨卡高頻通信,顯著降低等待時間;
專家負載失衡:
結合智能任務調度算法,動態實現負載均衡,避免“明星專家”過載;
系統協同復雜:
搭建模塊化調度與容錯機制,支撐大規模專家系統穩定高效運行。
性能提升+多行業場景適配
技術業務創新、打造高性價比AI推理新模式
為充分釋放EP架構的潛力,項目團隊在系統架構與算子執行層面引入多項關鍵優化手段,釋放推理潛能。
推理優化:
大規模專家并行+PD分離,64大規模專家并行,3倍單卡吞吐性能提升
并行優化:
多專家動態均衡專家熱點均衡、親和部署,資源利用率提升20%
通信優化:
AI to AI 低時延通信多算力協同、雙流通信掩蓋,整網性能提升100%
算子優化:
PA + MLAPO 融合算子Vector和Cube計算并行,計算耗時降低70%
本次EP方案驗證完成后,中軟國際智算中心已具備基于昇騰平臺提供高效推理服務的能力,可適配多行業場景,打造高性價比AI推理新模式。在互聯網與內容行業:面向智能客服、短視頻生成、AI搜索推薦等高并發場景,具備極強支撐能力;在金融、政企行業:支持私有化部署與國產化軟硬件組合,推理性能不降反升,AI卡投入節省達40%;在科研、教育領域:可作為模型調試、算法驗證的高性能推理平臺,提升研發效率與響應速度。通過EP推理方案,顯存資源占用顯著下降,用戶請求并發能力提升,同時硬件成本降低超過50%,大幅縮短AI部署ROI回收周期。
基于EP驗證成果
智算中心AI服務更快、更省、更強
更快:
卓越算力加速提升響應能力。中軟國際智算中心的昇騰算力租賃與AI推理云服務,依托華為EP方案的高效并行策略,實現分鐘級開通和高并發推理,顯著提升算力響應速度。
更省:
高效資源節約顯著降低成本。通過華為EP方案加速后,單卡并發量提升,Tokens輸出和算力利用率更高,結合按量計費,大幅降低企業自建AI集群成本。
更強:
推理性能全面提升能力更強。中軟國際智算中心支持高效Expert Parallelism并行策略與主流大模型適配,顯著提升推理準確率和復雜AI任務性能。
同時,提供基于EP的創新技術賦能服務,包括EP推理系統從零部署、環境搭建、任務調度、容錯優化等全過程的實施與培訓服務,幫助客戶培養自己的推理系統運維與調度團隊,打造自主可控的AI基礎設施能力。
中軟國際智算中心成功實現華為EP方案,不僅是技術上的重大突破,也是和昇騰合作共贏的典范。我們將持續以穩定、高效、開放的智算服務,為更多企業提供更低成本、更高性能的推理解決方案,攜手昇騰,共建國產AI智能推理新范式。
-
華為
+關注
關注
216文章
35200瀏覽量
255808 -
中軟國際
+關注
關注
0文章
651瀏覽量
7594 -
智算中心
+關注
關注
0文章
92瀏覽量
2053
原文標題:中軟國際智算中心成功完成華為EP方案驗證,實現大模型推理性能顯著提升
文章出處:【微信號:CSI00354,微信公眾號:中軟國際】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論