江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)自主研發的StackRUNS異構分布式推理框架已在實際場景中取得顯著成效,成功應用于大型園區多模態模型演練及高校滿血版DeepSeek-MoE 671B的運行,有效推動了大模型技術的快速落地。
案例一:大型園區多模態模型演練
案例背景:
由于建設分期不同及承建單位多樣,該智慧園區的AI基礎設施呈現出高度異構特征,包括NVIDIA T4、NVIDIA 3090、Atlas 300I DUO等多種AI加速設備,并在不同場景下協同運行。這些設備承擔著包括人流密度監測、人臉識別、車牌抓拍等計算機視覺任務,系統負載、資源調度與運維策略已形成穩定運行機制。
近期,該園區在安防升級過程中面臨一項臨時但復雜的智能分析挑戰:在突發事件響應、演練預警或夜間非業務時段,需臨時部署并運行多模態大模型,實現圖文聯合理解、行為鏈條分析、場景異常檢測等復雜推理任務。該需求需在不增加硬件投入、不影響現有業務運行的前提下完成。
應對方案:
為應對這一挑戰,潤和軟件自研的StackRUNS異構分布式推理框架成為關鍵解決方案。該框架具備以下核心能力:
1. 異構算力識別與建模:自動識別各設備的計算能力、顯存規格與精度支持能力,為模型切片和任務分配提供實時依據;
2. 模型智能切分與并行執行:支持基于專家路由與自動切分策略,將超大模型按需劃分為多個計算子任務,分布式調度到可用節點;
3. 輕量級調度與動態推理通路編排:在不干擾現有CV業務的前提下,構建獨立推理通路,臨時占用空閑資源執行推理任務,任務完成后自動回收;
4. 混合精度與量化模型支持:支持INT8、INT4等低精度模型快速加載,提升內存利用率與執行效率;
5. 統一通信與高效協同機制:通過通信適配層封裝多協議通信接口,實現多設備間高效數據傳輸與協同執行。
StackRUNS多模態模型場景圖
應用效果:
StackRUNS幫助超大模型在資源受限、基礎設施異構的環境中,實現“即需即調、彈性運行、無感部署”的能力,顯著提升園區對突發安防場景的智能響應水平,為大模型在城市級AI基礎設施中的靈活應用提供了可復制范式。
案例二:高校運行滿血版DeepSeek-MoE 671B
案例背景:
某高校在人工智能教學與科研實踐中,面臨運行超大規模模型的現實挑戰。一方面,教學樓、實驗樓與計算中心分布著多種異構計算資源,包括GPU、NPU設備及部分高性能CPU節點;另一方面,受限于經費與硬件條件,難以通過集中式部署滿足超大模型推理需求。
為此,該高校引入潤和軟件自研的StackRUNS異構分布式推理框架,成功在現有資源基礎上部署并運行了DeepSeek-MoE 671B級別的多模態大模型。
攻克難點:
1. 通信開銷高,跨設備、節點推理效率受限:傳統通信架構難以適配異構環境,頻繁阻塞;
2. 模型規模大、結構復雜度高:單個子模型或路由后激活路徑仍需百GB級顯存支撐,傳統GPU、NPU單卡難以支撐模型加載與中間態存儲;
3. 切片并行策略自動生成難:模型需劃分為跨卡跨節點子圖,兼顧通信代價、算子依賴與硬件負載能力,自動化策略生成復雜;
4. 模型運行狀態監控與可視化困難:推理過程中需監控路由結果、設備負載、通信代價、緩存命中率等。
通過StackRUNS部署滿血版DeepSeek示例圖
最終效果:
借助StackRUNS,高校成功打通了異構設備之間的算力協同壁壘,實現了超大模型的低門檻部署與高效推理,廣泛應用于圖文語義理解、跨模態知識挖掘、學生AI實驗等場景。該方案不僅顯著提升了設備利用率與推理任務執行效率,也加速了人工智能專業課程與科研課題向真實算力環境的落地驗證,真正實現了“在資源有限條件下,用分布式智能拼出超級算力”,為高校人工智能教學與科研提供了強有力的技術支撐。
江蘇潤和軟件股份有限公司(簡稱“潤和軟件”)成立于2006年,2012年在深圳證券交易所創業板上市(證券代碼:300339),是國家重點規劃布局內的大型軟件企業。公司總部位于南京,在北京、上海、深圳、香港等22個國內主要城市設有研發中心或分子公司,在日本、美國、新加坡等國設有海外分支機構,全球員工約13000人,擁有全球化的技術整合、客戶響應與服務到達能力。
秉承“做民族軟件脊梁,擔世界進步責任”的使命,潤和軟件致力成為“中國數智技術與服務創新的引領者”,通過國產化、數字化、智能化創新技術,軟硬件一體化解決方案能力及全生命周期軟件服務體系,激活行業新動能、發展新質生產力,助力廣大客戶數字化轉型和智能化升級。
-
AI
+關注
關注
88文章
34421瀏覽量
275782 -
潤和軟件
+關注
關注
1文章
320瀏覽量
1154 -
大模型
+關注
關注
2文章
3046瀏覽量
3866
原文標題:潤和軟件StackRUNS異構分布式推理框架行業應用案例
文章出處:【微信號:hoperun300339,微信公眾號:潤和軟件】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
潤和軟件發布StackRUNS異構分布式推理框架

曙光存儲領跑中國分布式存儲市場
淺談工商企業用電管理的分布式儲能設計

分布式云化數據庫有哪些類型
基于ptp的分布式系統設計
HarmonyOS Next 應用元服務開發-分布式數據對象遷移數據權限與基礎數據
分布式通信的原理和實現高效分布式通信背后的技術NVLink的演進

淺談屋頂分布式光伏發電技術的設計與應用

分布式光纖測溫是什么?應用領域是?

分布式輸電線路故障定位中的分布式是指什么

評論