曦智科技聯合北京大學、階躍星辰為下一代萬億參數大模型訓練的基礎設施建設提出全新解決方案。
隨著大模型參數規模的擴大,分布式訓練成為人工智能發展的核心途徑。分布式訓練可以將模型數據分配給多個計算節點,進行并行計算和數據管理,從而顯著加速模型訓練的過程,而高帶寬域(High Bandwidht Domain, HBD)的設計對提升模型算力利用率至關重要。
然而,現有的HBD架構在可擴展性、成本和容錯能力等方面存在根本性限制:
以交換機為中心的HBD(如NVIDIA NVL72)成本高昂、不易擴展規模。
以以AI 加速器(包括GPU 與專用ASIC)為中心的HBD(如Google TPUv3和Tesla Dojo)存在嚴重的故障傳播問題。
2022 年Google發布TPU v4 集群,首次采用光交換方案(Optical Circuit Switch,以下簡稱“OCS”),這種交換機-GPU混合的HBD在互連成本與系統擴展性之間采取了折中方案,但仍存在故障爆炸半徑問題,其成本和容錯能力仍不甚理想。
在此背景下,曦智科技聯手北京大學、階躍星辰的研究團隊提出了一種以光交換(OCS)模組為中心的高帶寬域架構InfiniteHBD,通過在光電轉換模組中集成OCS能力,InfiniteHBD實現了動態可重構的單點對多點連接,具備節點級故障隔離和低資源碎片化的能力。
InfiniteHBD在可擴展性和成本上全面優于現有方案:InfiniteHBD的單位成本僅為NVL72的31%,GPU冗余率比NVL72和TPUv4低一個數量級,且與NVIDIA DGX(單機8卡)相比,模型算力利用率最高提升3.37 倍。
該方案以論文形式被國際通信網絡領域頂級會議SIGCOMM 2025[1]接收。
曦智科技在集成硅光領域擁有十余年的產業經驗,在InfiniteHBD 方案中,創新性的開發了基于硅光子技術的分布式光交換dOCS(distributed Optical Circuit Switch),將基于馬赫曾德(MZI,Mach-Zehnder Interferometer)交換矩陣的光交換芯片集成到商用QSFP-DD 800Gbps光電轉換模組中,大幅簡化了器件結構的同時,有效提升了器件集成度,從而降低了成本和功耗,顯著提升了InfiniteHBD 的性價比和系統可擴展性。
分布式光交換方案對于建設超大規模訓練集群具有以下收益:
dOCS自帶光電轉換,提供交換能力的同時可形成跨機超節點;
光交換芯片采用成熟制程,降低了對于先進制程電交換芯片的依賴;
光交換芯片對協議不敏感,適用于當前GPU連接協議碎片化的現狀
InfiniteHBD為高帶寬域架構的高效擴展提供了新的解決方案,為下一代萬億參數大模型訓練的基礎設施建設帶來了重要啟示。 注釋: [1]SIGCOMM,Special Interest Group on Data Communication,即數據通信專業組,是ACM(美國計算機協會)組織在通信網絡領域的旗艦會議。今年的SIGCOMM 將于9 月8日-11日在葡萄牙科英布拉舉行。
關于曦智科技
曦智科技是全球領先的光電混合算力提供商。公司憑借在集成光子領域的開創性技術和全球頂尖的集成電路技術研發團隊,致力于在計算需求爆發的時代,為客戶提供一系列算力躍遷解決方案,與客戶共建更智能、更可持續的世界。曦智科技從光子矩陣計算(oMAC)、片上光網絡(oNOC)和片間光網絡(oNET)三大核心技術出發,打造光子計算和光子網絡兩大產品線,與大數據、云計算、金融、自動駕駛、生物醫藥、材料研究等領域客戶開展緊密合作,持續為客戶提供更具創造性的高效算力支撐。
-
加速器
+關注
關注
2文章
824瀏覽量
38940 -
算力
+關注
關注
2文章
1150瀏覽量
15465 -
大模型
+關注
關注
2文章
3035瀏覽量
3840
原文標題:曦科技|基于分布式光交換高帶寬域InfiniteHBD:破局超節點擴展瓶頸
文章出處:【微信號:曦智科技,微信公眾號:曦智科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
分布式光伏發運維系統實際應用案例分享

基于ptp的分布式系統設計
分布式、域控及SOA架構車身功能測試方案

淺談屋頂分布式光伏發電技術的設計與應用

一文講清什么是分布式云化數據庫!
安科瑞分布式光伏監控系統的應用

分布式光伏發電對低壓電網的影響與對策

安科瑞分布式光伏系統在某重工企業18MW分布式光伏中應用

評論