路由協(xié)議的演進(jìn)史:從靜態(tài)配置到AI時(shí)代的神經(jīng)網(wǎng)
一、路由協(xié)議的誕生:靜態(tài)路由時(shí)代(1960s—1970s)
互聯(lián)網(wǎng)的雛形ARPANET誕生時(shí),網(wǎng)絡(luò)規(guī)模極小,節(jié)點(diǎn)間路徑固定。工程師手動(dòng)配置每一條路由表,如同在紙質(zhì)地圖上標(biāo)注每條街道的通行規(guī)則。這種“靜態(tài)路由”雖簡單可靠,卻完全依賴人工維護(hù)——任何鏈路中斷或新增節(jié)點(diǎn)都需要重新配置,無法適應(yīng)動(dòng)態(tài)變化的網(wǎng)絡(luò)環(huán)境。這種模式在小規(guī)模網(wǎng)絡(luò)中勉強(qiáng)可用,但隨著節(jié)點(diǎn)數(shù)量增加,其脆弱性暴露無遺。
局限的本質(zhì):網(wǎng)絡(luò)被視為靜態(tài)拓?fù)洌狈?dòng)態(tài)變化的感知與響應(yīng)能力。
二、動(dòng)態(tài)路由協(xié)議:網(wǎng)絡(luò)學(xué)會(huì)“自我修復(fù)”(1980s—2000s)
1989年,OSPF(開放最短路徑優(yōu)先)和BGP(邊界網(wǎng)關(guān)協(xié)議)的發(fā)布,標(biāo)志著網(wǎng)絡(luò)進(jìn)入動(dòng)態(tài)自治時(shí)代。動(dòng)態(tài)路由協(xié)議通過兩種核心能力徹底改變了網(wǎng)絡(luò):
- 拓?fù)涓兄篛SPF基于鏈路狀態(tài)數(shù)據(jù)庫(LSDB),實(shí)時(shí)計(jì)算最短路徑;BGP通過AS-PATH屬性在自治系統(tǒng)間傳遞路由信息。
- 故障自愈:當(dāng)某條鏈路中斷,協(xié)議自動(dòng)重新計(jì)算路徑,保障連通性。
技術(shù)突破:網(wǎng)絡(luò)從“靜態(tài)地圖”升級為“實(shí)時(shí)導(dǎo)航系統(tǒng)”,但流量調(diào)度仍依賴固定策略(如ECMP均分流量),無法應(yīng)對復(fù)雜場景。
三、SDN革命:集中控制的理想與困境(2008年—2010s)
為追求更靈活的流量控制,軟件定義網(wǎng)絡(luò)(SDN)橫空出世。其核心理念是將控制平面集中化,由中央控制器全局調(diào)度流量。理論上,SDN能實(shí)現(xiàn)精細(xì)化的流量工程,例如為關(guān)鍵業(yè)務(wù)預(yù)留帶寬、動(dòng)態(tài)規(guī)避擁塞鏈路。
但在實(shí)現(xiàn)過程中遇到瓶頸。感知延遲:控制器依賴秒級更新的網(wǎng)絡(luò)狀態(tài),面對AI流量的毫秒級波動(dòng),決策嚴(yán)重滯后。協(xié)調(diào)成本:集中式架構(gòu)難以應(yīng)對大規(guī)模分布式網(wǎng)絡(luò)的復(fù)雜性,控制器成為性能瓶頸。
SDN未能取代動(dòng)態(tài)路由協(xié)議,但啟發(fā)了后續(xù)技術(shù)對“集中與分布”平衡的探索。
四、協(xié)同進(jìn)化:動(dòng)態(tài)路由與控制器聯(lián)姻(2010s—2020s)
為彌補(bǔ)傳統(tǒng)路由的靈活性不足,技術(shù)社區(qū)提出“協(xié)議與控制協(xié)同”方案:
- Segment Routing(SR):通過源路由標(biāo)記路徑,結(jié)合控制器實(shí)現(xiàn)流量工程。
- BGP EVPN:在數(shù)據(jù)中心多租戶場景中,動(dòng)態(tài)管理虛擬網(wǎng)絡(luò)拓?fù)洹?/li>
進(jìn)步與局限:這些技術(shù)提升了流量調(diào)度的靈活性,但仍依賴預(yù)定義策略,無法實(shí)時(shí)響應(yīng)突發(fā)流量。例如,ECMP均分流量時(shí),一條“大象流”仍可能壓垮某條路徑,而控制器無法即時(shí)干預(yù)。
五、INT-based Routing:AI時(shí)代的“神經(jīng)感知路由”(2020s—)
當(dāng)AI驅(qū)動(dòng)的流量徹底顛覆傳統(tǒng)網(wǎng)絡(luò)模型時(shí),路由技術(shù)迎來質(zhì)變——INT-based Routing通過三項(xiàng)革新,讓網(wǎng)絡(luò)具備“自主神經(jīng)系統(tǒng)”:
1. 微秒級感知:數(shù)據(jù)包成為“偵察兵”
- INT(帶內(nèi)網(wǎng)絡(luò)遙測):在業(yè)務(wù)數(shù)據(jù)包中嵌入元數(shù)據(jù)(如隊(duì)列深度、鏈路時(shí)延),逐跳收集路徑狀態(tài),精度達(dá)微秒級。
- 分布式計(jì)算:每臺(tái)交換機(jī)實(shí)時(shí)分析本地INT數(shù)據(jù),結(jié)合OSPF/BGP的全局拓?fù)湫畔ⅲ瑒?dòng)態(tài)計(jì)算最優(yōu)路徑。
2. 動(dòng)態(tài)負(fù)載均衡:從“均分”到“自適應(yīng)”
- WCMP(加權(quán)多路徑):根據(jù)實(shí)時(shí)鏈路負(fù)載(而非靜態(tài)權(quán)重)分配流量。例如,某路徑因“大象流”導(dǎo)致時(shí)延上升,新流量立即切換至低負(fù)載路徑。
- Flowlet級調(diào)度:將長連接流劃分為片段(flowlet),按路徑狀態(tài)動(dòng)態(tài)分發(fā),避免傳輸層亂序問題。
3. 故障自愈:從“分鐘級”到“毫秒級”
傳統(tǒng)網(wǎng)絡(luò)中,鏈路故障需數(shù)秒至分鐘才能恢復(fù);而INT-based Routing通過實(shí)時(shí)感知與分布式?jīng)Q策,可在10ms內(nèi)切換備用路徑,業(yè)務(wù)完全無感。
案例:AI數(shù)據(jù)中心的性能躍遷
以一個(gè)典型的Spine-Leaf拓?fù)涞臄?shù)據(jù)中心網(wǎng)絡(luò)為例。

如上圖所示,Server0和Server1分別連接到兩個(gè)Leaf交換機(jī),這一對Leaf交換機(jī)間存在4個(gè)路徑。
在Server側(cè)看不到這4個(gè)路徑,因此智能網(wǎng)卡無法實(shí)現(xiàn)流量調(diào)度。
在Leaf交換機(jī)上,如果僅依賴OSPF,能看到4條靜態(tài)的等價(jià)路徑,但它們的負(fù)載實(shí)際上是不同的。
如果借助INT的感知能力,Leaf1交換機(jī)上現(xiàn)在就能夠知道去往Server0有4條時(shí)延不相等的路徑。這樣Leaf1交換將能夠選擇更優(yōu)的策略將流量分配到這4條路徑上,如最小時(shí)延路徑或者WCMP(Weighted Cost Multiple Path),從而實(shí)現(xiàn)完全自適應(yīng)的路由,讓網(wǎng)絡(luò)流量和網(wǎng)絡(luò)負(fù)載完全匹配,最大化網(wǎng)絡(luò)的吞吐量、最小化尾部延遲,最大化網(wǎng)絡(luò)利用率。
INT-Based Routing可以與Packet Spray和flowlet結(jié)合,實(shí)現(xiàn)逐包級別或逐flowlet級別的流量調(diào)度。借助OSPF和BGP的拓?fù)浒l(fā)現(xiàn)能力,它能夠在任意拓?fù)涞木W(wǎng)絡(luò)上應(yīng)用。
相比傳統(tǒng)的ECMP技術(shù),INT-Based Routing可將網(wǎng)絡(luò)利用率提升到90%以上,網(wǎng)絡(luò)吞吐量提升20~45%, P99 tail latency 降低50%以上,從而顯著提高AI訓(xùn)練的作業(yè)完成時(shí)間(JCT)。
OSPF擅長在鏈路級別感知網(wǎng)絡(luò)拓?fù)洌珺GP則擅長在AS級別感知網(wǎng)絡(luò)拓?fù)洌琁NT通過逐跳嵌入元數(shù)據(jù),徹底解決了原來單個(gè)交換機(jī)無法動(dòng)態(tài)感知整個(gè)路徑上流量和負(fù)載的問題。它們的結(jié)合釋放出強(qiáng)大的流量調(diào)度能力。
新路由范式將帶來新一輪網(wǎng)絡(luò)設(shè)備升級
AI的發(fā)展告訴我們,當(dāng)我們做更多更有效率的分布式計(jì)算,就可以改變世界。網(wǎng)絡(luò)本身又何嘗不是如此。當(dāng)我們在交換機(jī)中對網(wǎng)絡(luò)拓?fù)洹⒕W(wǎng)絡(luò)流量和設(shè)備負(fù)載進(jìn)行實(shí)時(shí)分布式計(jì)算后,我們就能大幅改善網(wǎng)絡(luò)的性能。
Smart Switch的基本構(gòu)成是“可編程的ASIC數(shù)據(jù)平面 + DPU化的控制平面 + 控制平面到控制平面的高速數(shù)據(jù)通道”。

關(guān)于CX864E-N:51.2T 800G AI智算交換機(jī)軟硬件系統(tǒng)設(shè)計(jì)全揭秘
Smart Switch 是“網(wǎng)絡(luò)智能化”的結(jié)構(gòu)性演進(jìn)。它不再依賴主機(jī)上的智能網(wǎng)卡、也不依賴集中控制器,而是將 “實(shí)時(shí)感知 + 智能調(diào)度” 嵌入網(wǎng)絡(luò)最核心的物理單元Switch中,使網(wǎng)絡(luò)成為分布式計(jì)算平臺(tái),具備自感知、自調(diào)度能力,從而自適應(yīng)處理毫秒級的流量變化,是網(wǎng)絡(luò)應(yīng)對AI時(shí)代的關(guān)鍵變革。
在此基礎(chǔ)上,INT-Based Routing應(yīng)運(yùn)而生,推動(dòng)網(wǎng)絡(luò)控制面進(jìn)一步走向智能化,是路由技術(shù)的最新范式。可以說,INT-Based Routing 是為AI而生的智能路由!
-
Int
+關(guān)注
關(guān)注
0文章
24瀏覽量
16206 -
路由技術(shù)
+關(guān)注
關(guān)注
0文章
13瀏覽量
6579 -
網(wǎng)絡(luò)流量
+關(guān)注
關(guān)注
0文章
61瀏覽量
10648
發(fā)布評論請先 登錄
COMPUTEX 2025 | 廣和通AI能力與產(chǎn)品升級,助力智能硬件企業(yè)擁抱AI新時(shí)代

破局智算瓶頸:400G光模塊如何重構(gòu)AI時(shí)代的網(wǎng)絡(luò)神經(jīng)脈絡(luò)
AI賦能安全調(diào)度系統(tǒng):智能升級與功能躍遷
施耐德電氣發(fā)布數(shù)據(jù)中心高密度AI集群部署解決方案

適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
NVIDIA AI Enterprise助力AI智能體重構(gòu)工作模式
遙測終端機(jī)的使用原理?

評論