超節(jié)點已成為國內外構建
大規(guī)模HBD域明確應用趨勢
技術驅動下,超節(jié)點已成為國內外構建大規(guī)模HBD域應用的關鍵趨勢。隨著千億到萬億參數(shù)MoE大模型并行訓練(尤其是專家并行和張量并行)對GPU間通信需求的激增,Scale-up超節(jié)點應運而生。去年,英偉達的NVL72及可擴展的NVL576系統(tǒng)率先布局;今年,華為CloudMatrix 384又刷新了超節(jié)點規(guī)模與性能的紀錄。與此同時,OISA、UALink、ALS、ETH-X等組織正致力于構建更開源、通用的超節(jié)點生態(tài)。超節(jié)點作為AI基礎設施GPU Scale-up互聯(lián)的必然趨勢,正吸引產(chǎn)業(yè)界探索多樣化的技術路線。目前,業(yè)界正密切關注其在硬件建設、互聯(lián)技術、成本優(yōu)化及工程落地等方面的挑戰(zhàn)與需求。
昨日在2025中國AI算力大會上,奇異摩爾首席網(wǎng)絡架構專家葉棟為行業(yè)帶來了“AI原生時代 —共筑超節(jié)點的網(wǎng)絡基礎架構”的主題演講,并與產(chǎn)業(yè)鏈來自阿里云、中國移動研究院以及曦智科技的技術專家們共同探討了國內外超節(jié)點的現(xiàn)狀,超節(jié)點所面臨的挑戰(zhàn)以及其在國內應用落地前景展望等多個議題發(fā)表洞見。
超節(jié)點Scale-up網(wǎng)絡互聯(lián)的挑戰(zhàn)
葉棟博士指出在現(xiàn)階段AI大模型并行計算趨于復雜化的背景下,Scale-up網(wǎng)絡互聯(lián)面臨高性能、靈活拓撲、多語義支持以及缺乏通用互聯(lián)協(xié)議等四大挑戰(zhàn)。
挑戰(zhàn)一:高性能
從性能維度審視,英偉達在Scale-up互聯(lián)領域目前處于領先地位。回顧2014年至2024年這十年間,英偉達的GPU芯片及系統(tǒng)實現(xiàn)了顯著的技術躍升,從P100迭代至GB200,其底層架構亦從Volta演進到最新的Blackwell。
在此期間,GPU互聯(lián)的關鍵技術NVLink也經(jīng)歷了飛速發(fā)展,帶寬從第一代的300GB/s大幅提升至第五代的1.8TB/s。盡管PCIe 6.0在x16通道下提供的雙向帶寬達到256GB/s,但相較于NVLink 5.0,其性能仍僅為后者的約七分之一。對于Scale-up互聯(lián)而言,在處理大規(guī)模模型并行計算時,對性能有著嚴苛要求,這體現(xiàn)在單卡芯片的計算能力、GPU間的互聯(lián)帶寬以及通信時延等關鍵指標上,英偉達的技術優(yōu)勢在這些方面均得到了充分體現(xiàn)。
挑戰(zhàn)二:靈活拓撲支持
當前AI網(wǎng)絡的網(wǎng)絡拓撲形態(tài)是多樣的,盡管行業(yè)普遍采用相對通用的拓撲組網(wǎng)是胖樹(Spine-Leaf架構)。然而,隨著AI大模型訓練與推理對網(wǎng)絡通信復雜度的要求持續(xù)提升,當前的網(wǎng)絡環(huán)境已演變?yōu)槎喾N拓撲類型并存的狀態(tài)。
以全網(wǎng)狀拓撲(Full Mesh)為例,該結構的網(wǎng)絡帶寬能力極高,可達到Tbps級別,同時能夠實現(xiàn)低至納秒(ns)級的通信時延。但其固有的局限性在于網(wǎng)絡可擴展的節(jié)點數(shù)量能力較差,不能進一步滿足超大規(guī)模網(wǎng)絡的組網(wǎng)。又例如光交換矩陣技術,如Google TPU集群所采用的典型組網(wǎng)方案,則展現(xiàn)出較強的網(wǎng)絡可擴展能力,并能夠維持極低的延遲水平,但從成本和維護角度來說,光交換的成本較高且維護難度和復雜性也較大。網(wǎng)絡拓撲的優(yōu)化,已成為提升Scale-up網(wǎng)絡互聯(lián)性能的關鍵技術環(huán)節(jié)之一。
鑒于GPU間互聯(lián)對網(wǎng)絡性能的嚴苛要求,以及不同應用場景下對拓撲結構的多樣化需求,業(yè)界亟需一種能夠適應并靈活支持多種網(wǎng)絡拓撲的產(chǎn)品方案,以確保在不同架構下均能實現(xiàn)高效、可靠的GPU互聯(lián)。
挑戰(zhàn)三:多語義支持
消息語義與內存語義是Scale-up網(wǎng)絡互聯(lián)在過去一定時期階段內爭議較大的技術路線。但隨著產(chǎn)業(yè)界對于AI Scale-up 網(wǎng)絡的探索進一步深入,多語義支持逐步成為構筑GPU互聯(lián)超節(jié)點的必選項。未來隨著超節(jié)點的GPU數(shù)目進一步擴展增加(機架級-1024GPU),在張量并行和專家并行混合負載的應用場景中, 超節(jié)點不僅需要類似RDMA模式的消息語義,同時也依賴能夠實現(xiàn)HBD域內內存模塊(例如HBM)快速訪問的內存語義。
內存語義- 其核心原理是通過物理或虛擬地址空間的直接映射或重映射,構建出一個全局的數(shù)據(jù)視圖。多個處理單元能夠使用標準的加載(Load)和存儲(Store)指令直接訪問遠程單
元的內存空間。
舉個例子,NVLink 本身隸屬于內存語義的典范。在此條件下,行業(yè)需要一種新的產(chǎn)品形態(tài)來同時支持消息語義及內存語義,從而確保大規(guī)模GPU集群在復雜AI工作負載下實現(xiàn)極致性能與靈活性的核心保障。
挑戰(zhàn)四:通用互聯(lián)協(xié)議
當前,Scale-up網(wǎng)絡互聯(lián)的實際應用主要依賴于英偉達和華為等廠商提供的基于私有協(xié)議與封閉生態(tài)的高速互聯(lián)解決方案。然而,隨著OISA、UALink等開源生態(tài)的相繼建立與發(fā)展,行業(yè)正逐步打破私有協(xié)議一統(tǒng)天下的局面。
盡管未來相當長的一段時期內,Scale-up互聯(lián)領域可能仍將呈現(xiàn)封閉專有方案與開源生態(tài)并存的態(tài)勢,但這并未改變行業(yè)前進的方向。AI網(wǎng)絡的持續(xù)進步與性能優(yōu)化,迫切需要產(chǎn)業(yè)鏈上下游各環(huán)節(jié)的緊密協(xié)作與共同努力。唯有打通開源的全鏈條,匯聚產(chǎn)業(yè)智慧與資源,才能最終完善并實現(xiàn)能覆蓋大部分應用場景且具備通用性的互聯(lián)協(xié)議標準。
Kiwi NDSA -G2G:高性能 | 標準化 |
通用化的超節(jié)點互聯(lián)解決方案
基于以上幾大挑戰(zhàn),奇異摩爾的Kiwi NDSA-G2G 互聯(lián)芯粒(又名G2G IO Die)是行業(yè)內唯一一種基于Chiplet架構和開放生態(tài),提供高性能、標準化、通用化的Scale-up互聯(lián)方案。
從性能來看,產(chǎn)品具有高帶寬、低延時及高并發(fā)的特性,可以實現(xiàn)TB級別的帶寬,對標NVlink4.0;從網(wǎng)絡拓撲來看,G2G芯粒支持多種拓撲包括Full Mesh、Spine-Leaf等組網(wǎng);從語義支持方面,G2G芯粒將同時支持消息語義與內存語義雙引擎。由于當前Scale-up協(xié)議從簡單 P2P 接口變成復雜協(xié)議,通用協(xié)議也在進一步標準化的過程中。Kiwi NDSA-G2G 本身基于奇異摩爾獨創(chuàng)的HPDE架構,可滿足不同廠商不同場景的需求,在生態(tài)百花齊放的Scale-up系統(tǒng)中支持多協(xié)議類型及其升級,從而降低持續(xù)研發(fā)難度和開發(fā)成本。
“AI系統(tǒng)作為一項高度復雜的系統(tǒng)工程,其成功構建與高效運行,離不開產(chǎn)業(yè)鏈上每一個環(huán)節(jié)的緊密協(xié)作與貢獻。奇異摩爾專注于AI網(wǎng)絡互聯(lián)這一關鍵領域,積極致力于聯(lián)合云服務提供商、電信運營商、GPU芯片、交換機及服務器制造商等AI產(chǎn)業(yè)鏈的上下游伙伴,共同攜手構筑一個開源、開放且具有廣泛適用性的通用Scale-up網(wǎng)絡生態(tài)體系,以此驅動整個AI網(wǎng)絡基礎設施的加速發(fā)展與持續(xù)演進。”葉棟博士表示。
關于我們
AI網(wǎng)絡全棧式互聯(lián)架構產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領先的AI網(wǎng)絡全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創(chuàng)新性地構建了統(tǒng)一互聯(lián)架構——Kiwi Fabric,專為超大規(guī)模AI計算平臺量身打造,以滿足其對高性能互聯(lián)的嚴苛需求。我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡的GPU片間互聯(lián)芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構成了全鏈路互聯(lián)解決方案,為AI計算提供了堅實的支撐。
-
AI
+關注
關注
88文章
35080瀏覽量
279416 -
算力
+關注
關注
2文章
1193瀏覽量
15639 -
奇異摩爾
+關注
關注
0文章
61瀏覽量
3729
原文標題:主題演講回顧 | AI原生時代—攜手共筑超節(jié)點的網(wǎng)絡基礎架構
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
曙光數(shù)創(chuàng)亮相2025中國智算中心全棧技術大會
壁仞科技亮相2025中國移動云智算大會
曦智科技亮相2025中國移動云智算大會
中星微技術亮相2025中國移動云智算大會
億鑄科技亮相2025中國移動云智算大會

摩爾線程亮相2025中國移動云智算大會
億鑄科技邀您相約2025中國移動云智算大會
AI 算力報告來了!2025中國AI算力市場將達 259 億美元

評論