人工智能(AI),特別是大規(guī)模模型訓(xùn)練和推理,正以前所未有的方式重塑數(shù)據(jù)中心網(wǎng)絡(luò)。傳統(tǒng)的“盡力而為”網(wǎng)絡(luò)架構(gòu),在處理海量、突發(fā)的AI數(shù)據(jù)洪流時(shí)捉襟見肘。AI模型對(duì)網(wǎng)絡(luò)性能的嚴(yán)苛要求——高帶寬、低延遲、零丟包——迫使網(wǎng)絡(luò)必須進(jìn)行一場(chǎng)深刻的智能進(jìn)化,從被動(dòng)的基礎(chǔ)設(shè)施轉(zhuǎn)變?yōu)槔斫鈽I(yè)務(wù)、感知狀態(tài)、智能決策的“AI感知網(wǎng)絡(luò)”。
AI業(yè)務(wù)訴求:對(duì)傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的挑戰(zhàn)
AI集群(如GPU/TPU服務(wù)器)間的通信呈現(xiàn)出典型的“大象流”特征,流量總量巨大、并發(fā)連接少、單條流帶寬極高(可達(dá)數(shù)百Gbps)。這與傳統(tǒng)數(shù)據(jù)中心中“數(shù)量多、帶寬小”的“老鼠流”模式截然不同。傳統(tǒng)均衡技術(shù)失效,逐流ECMP依賴Hash算法在少量大流上極易導(dǎo)致嚴(yán)重負(fù)載不均,特定路徑擁塞而其他路徑閑置。Flowlet 對(duì)路徑時(shí)延差異敏感,配置參數(shù)(如Gap值)難以適應(yīng)動(dòng)態(tài)變化的網(wǎng)絡(luò)環(huán)境,全局信息缺失導(dǎo)致效果打折。逐包ECMP亂序問題嚴(yán)重,嚴(yán)重影響GPU計(jì)算效率。AI訓(xùn)練任務(wù)(如AllReduce)具有全局同步特性。任何一條關(guān)鍵路徑上的擁塞、丟包或高延遲,都會(huì)導(dǎo)致整個(gè)計(jì)算集群“空等”,顯著拖慢任務(wù)完成時(shí)間(Job Completion Time, JCT),直接影響業(yè)務(wù)效率和資源成本。
RoCE交換機(jī)(SONiC-Based)選用的動(dòng)態(tài)智能選路創(chuàng)新方案結(jié)合了逐流 ECMP 均衡和基于子流 flowlet 均衡提出動(dòng)態(tài)WCMP(Weighted Cost Multipath)和基于flowlet 的 ALB(Auto Load Balancing),下面將介紹具體相關(guān)技術(shù)。
網(wǎng)絡(luò)智能進(jìn)化:為AI而生的核心技術(shù)
網(wǎng)絡(luò)態(tài)勢(shì)實(shí)時(shí)感知:高精度測(cè)量的基石
- ASIC硬件級(jí)統(tǒng)計(jì)(百毫秒級(jí)):? 直接讀取交換機(jī)芯片寄存器,獲取端口/隊(duì)列的帶寬利用率、緩存占用等關(guān)鍵指標(biāo),通過SONiC控制面以亞秒級(jí)精度匯聚分析。

- 帶內(nèi)網(wǎng)絡(luò)遙測(cè)INT(納秒級(jí)):? 采用HDC(高延遲捕獲)技術(shù)。當(dāng)數(shù)據(jù)包在交換機(jī)內(nèi)部經(jīng)歷超過設(shè)定閾值的延遲時(shí),該數(shù)據(jù)包的前150字節(jié)及關(guān)鍵元數(shù)據(jù)(入口/出口端口、精確時(shí)延)會(huì)被復(fù)制并發(fā)送給分析器(如交換機(jī)CPU)。這提供了前所未有的微突發(fā)流量和隊(duì)列擁塞的洞察能力。

動(dòng)態(tài)智能選路技術(shù)在星融元交換機(jī)上開啟 HDC 功能,并將 CPU 作為 HDC 的收集分析器,通過分析 HDC 報(bào)文實(shí)現(xiàn)高精度測(cè)量交換機(jī)轉(zhuǎn)發(fā)時(shí)延,并將時(shí)延信息作為路徑質(zhì)量評(píng)價(jià)因子,提高路徑質(zhì)量評(píng)價(jià)精度。

命令行配置 HDC 功能控制INT進(jìn)程運(yùn)行,之后通過 socket 連接進(jìn)行收包循環(huán),將收取到的報(bào)文進(jìn)行解析并將關(guān)鍵信息(出入端口、轉(zhuǎn)發(fā)時(shí)延等)寫入數(shù)據(jù)庫。
全局路徑智能評(píng)估與同步
感知到的數(shù)據(jù)需要轉(zhuǎn)化為對(duì)整網(wǎng)路徑質(zhì)量的統(tǒng)一認(rèn)知。
- BGP擴(kuò)展社區(qū)屬性傳遞路徑質(zhì)量:? 創(chuàng)新性地?cái)U(kuò)展BGP協(xié)議(數(shù)據(jù)中心廣泛部署的底層路由協(xié)議),定義新的Path Bandwidth Extended Community屬性。該屬性攜帶一個(gè)綜合評(píng)估路徑質(zhì)量的浮點(diǎn)數(shù)值(單位GB/s),通過BGP Update報(bào)文在整網(wǎng)擴(kuò)散。
路徑質(zhì)量同步算法邏輯如下圖所示:

動(dòng)態(tài)智能選路技術(shù)將兩層 Leaf-Spine 組網(wǎng)中的交換機(jī)端口分為了三類:Leaf 上行口、Leaf 下行口和 Spine口,每種類型端口賦予不同的計(jì)算系數(shù),且每種端口的計(jì)算系數(shù)可配。
- 異常路徑主動(dòng)剔除:? 設(shè)定質(zhì)量閾值。綜合質(zhì)量過低的路徑(如擁塞嚴(yán)重、時(shí)延過高)被判定為“異常路徑”并暫時(shí)剔除,避免其拖累整體性能,待其恢復(fù)后重新引入。

智能負(fù)載決策與執(zhí)行:動(dòng)態(tài)WCMP + Flowlet ALB
基于實(shí)時(shí)感知的全局路徑視圖,執(zhí)行層實(shí)現(xiàn)精細(xì)化流量調(diào)度:
動(dòng)態(tài)WCMP(加權(quán)多路徑):?
- 核心思想:? 不再是ECMP的“平均主義”,而是根據(jù)每條路徑的實(shí)時(shí)綜合質(zhì)量動(dòng)態(tài)計(jì)算權(quán)重(如質(zhì)量比38:80對(duì)應(yīng)權(quán)重比3:7)。
- 效果:? 將流量按比例引導(dǎo)到當(dāng)前最優(yōu)的路徑上,最大化利用可用帶寬,避免擁塞熱點(diǎn)。權(quán)重隨網(wǎng)絡(luò)狀態(tài)變化而動(dòng)態(tài)調(diào)整。

基于Flowlet的自動(dòng)負(fù)載均衡(ALB):?
- 作為ECMP的智能增強(qiáng)器:? 在ECMP選定的下一跳組內(nèi),ASIC芯片實(shí)時(shí)監(jiān)測(cè)組內(nèi)各出端口的瞬時(shí)負(fù)載和隊(duì)列時(shí)延。
- 微秒級(jí)智能調(diào)度:? 當(dāng)一個(gè)Flowlet(具有自然間隙的數(shù)據(jù)包子流)到達(dá)時(shí),ALB將其動(dòng)態(tài)分配到組內(nèi)當(dāng)前負(fù)載最輕或時(shí)延最低的物理端口上。高負(fù)載/高時(shí)延端口會(huì)被臨時(shí)跳過。
- 故障自愈:? 支持端口級(jí)Fail-over,鏈路故障時(shí)自動(dòng)觸發(fā)流量重分布。

多租戶支持:網(wǎng)絡(luò)虛擬化(VRF)
AI云平臺(tái)需要支持多租戶隔離。
- VRF隔離:? 為不同用戶/租戶分配獨(dú)立VRF路由表。
- 基于源IP的流量分類:? 利用ASIC的PRE-ACL能力,根據(jù)GPU網(wǎng)段源IP自動(dòng)將流量劃入對(duì)應(yīng)的租戶VRF進(jìn)行查表轉(zhuǎn)發(fā),確保租戶間嚴(yán)格隔離。

智能網(wǎng)絡(luò)賦能AI業(yè)務(wù)場(chǎng)景
化解流量洪峰:動(dòng)態(tài)WCMP的威力
- 場(chǎng)景:? 256 x 400G GPU集群,1:1收斂比Leaf-Spine架構(gòu)。Server1 GPU1 -> Server17 GPU1的大象流。
- 傳統(tǒng)ECMP困境:? Hash沖突可能導(dǎo)致所有大象流涌向同一Spine,造成Leaf1上行口擁塞丟包,拖慢整個(gè)訓(xùn)練任務(wù)

動(dòng)態(tài)智能選路方案:?
- Server17 GPU1的BGP路由攜帶Leaf17->GPU1質(zhì)量宣告。
- Spine疊加自身->Leaf17質(zhì)量后宣告給Leaf1。
- Leaf1疊加自身->Spine質(zhì)量,匯總所有到GPU1路徑的質(zhì)量。
- Leaf1剔除劣質(zhì)路徑,基于剩余路徑質(zhì)量動(dòng)態(tài)計(jì)算WCMP權(quán)重(如3:7)。
- 流量按最優(yōu)比例分發(fā)到多條Spine路徑,避免單點(diǎn)擁塞,保障大象流順暢。
業(yè)務(wù)價(jià)值:? 防止關(guān)鍵路徑擁塞,穩(wěn)定JCT,提升GPU集群整體利用率。
Flowlet ALB優(yōu)化ECMP
- 場(chǎng)景:? 在Leaf1到Spine的ECMP組內(nèi),某條鏈路突發(fā)微擁塞導(dǎo)致時(shí)延升高。

Flowlet ALB作用?
- ASIC實(shí)時(shí)檢測(cè)到該出端口負(fù)載/時(shí)延超標(biāo)。
- 后續(xù)到達(dá)的Flowlet被自動(dòng)引導(dǎo)至組內(nèi)其他負(fù)載正常/時(shí)延低的端口。
- 擁塞端口被暫時(shí)“規(guī)避”,待其負(fù)載/時(shí)延恢復(fù)正常后,F(xiàn)lowlet將再次被分配至此端口。
業(yè)務(wù)價(jià)值:? 消除微突發(fā)導(dǎo)致的局部擁塞和抖動(dòng),優(yōu)化端到端時(shí)延,提升GPU計(jì)算效率。
AI時(shí)代的網(wǎng)絡(luò),已不再是簡(jiǎn)單的連通管道。星融元CX-N系列RoCE交換機(jī)所代表的動(dòng)態(tài)感知 + 智能決策(動(dòng)態(tài)WCMP) + 精準(zhǔn)執(zhí)行(Flowlet ALB) 架構(gòu),標(biāo)志著網(wǎng)絡(luò)向“AI感知網(wǎng)絡(luò)”的深刻進(jìn)化。這種進(jìn)化以保障AI業(yè)務(wù)性能為核心目標(biāo),通過實(shí)時(shí)感知網(wǎng)絡(luò)狀態(tài)、智能評(píng)估路徑質(zhì)量、動(dòng)態(tài)調(diào)整流量分布,有效化解了傳統(tǒng)網(wǎng)絡(luò)在AI負(fù)載下的性能瓶頸,為大規(guī)模AI訓(xùn)練和推理提供了穩(wěn)定、高效、無損的網(wǎng)絡(luò)基石,釋放AI的真正潛力。
-
AI
+關(guān)注
關(guān)注
88文章
34781瀏覽量
277146 -
負(fù)載均衡
+關(guān)注
關(guān)注
0文章
121瀏覽量
12572
發(fā)布評(píng)論請(qǐng)先 登錄
Path Bandwidth Extended Community:藏在BGP屬性里的智能路由革命

智算網(wǎng)絡(luò)路徑質(zhì)量三要素:帶寬/隊(duì)列/時(shí)延在智能選路中的協(xié)同優(yōu)化

高德發(fā)布AI導(dǎo)航智能體:高速駕車場(chǎng)景下可感知車道級(jí)交通流變化

智能家居Mesh組網(wǎng)方案:實(shí)現(xiàn)智能化生活的無縫連接NRF52832
云翎智能應(yīng)急自組網(wǎng)通信系統(tǒng):讓應(yīng)急通信更智能、更可靠

評(píng)論