超以太網聯盟(UEC)成立于2023年,由Linux基金會聯合Meta、微軟、AMD、博通等科技巨頭共同發起,旨在解決AI/ML和HPC場景下傳統以太網的性能瓶頸。隨著千卡級AI集群成為主流,網絡擁塞、延遲敏感型流量調度、大規模密鑰管理等挑戰日益凸顯。UEC 1.0規范作為首個正式版本,聚焦傳輸層協議革新與跨層協同優化,其核心思想是基于以太網架構增強而非顛覆,通過分層解耦設計兼容現有生態。
超以太網系統架構
集群組成邏輯
- 節點(Node)?:搭載UEC網卡的計算單元
- 網絡端點(FEP)?:每張網卡支持多個邏輯端點
- 平面(Plane)?:多個FEP通過交換機互聯形成的子網
- 雙模協同:支持并行作業(如AI訓練)與C/S模式(如推理服務)混合部署

流量調度的核心機制
- 負載均衡:基于ECMP多路徑路由
- 擁塞感知:通過UET傳輸層的CMS子層管理熵值
- 差異化服務:利用IP報頭DSCP字段實現流量類別映射,保障高優先級流量(如All-Reduce)
流量類別映射關系如下圖所示,實現從應用層請求到鏈路層調度的跨層協同:

協議棧演進與關鍵技術

軟件層:開放生態兼容
超以太網軟件層的一個關鍵構建模塊是開放架構接口 (Open Fabric Interfaces),也稱 LibFabric。
Libfabric 定義了一套面向高性能并行和分布式應用程序的通信 API,其主要目標是提供一個統一的接口,讓開發者能夠方便地構建應用,而無需關心底層具體的傳輸協議和硬件細節。現有的 LibFabric 已經可對接 AI 或 HPC 集群所需的各類高性能通信庫,例如 NCCL(來自 Nvidia)、RCCL(來自 AMD)、MPI(原始超級計算并行通信)、Open SHMEM(共享內存)和 UD(不可靠數據報)。

UEC 1.0 規范中確定的 Libfabric API 基線版本是 v2.0 ,并將與 Libfabric 社區保持合作,允許集群中的Endpoint(網卡)與 AI 框架和 HPC 工作負載進行交互;此外一些規范內的可選功能還需要交換機支持(例如數據包修剪),為此,網絡操作系統(NOS)需要對應新增擴展。
傳輸層(UET)四維革新


1. 語義子層(SES)?
SES子層旨在通過 Libfabric 映射集成到廣泛部署的 A I框架和 HPC 庫中,是 UET 和 Libfabric 之間的主要接口。它使用 Libfabric 的應用程序通過網絡交換消息,并使用流行的零拷貝技術將這些消息直接放入彼此的緩沖存儲器中。
2. 傳輸協議矩陣(PDS)?
通過UET分層模型和相關庫,應用程序可以選擇最適合其需求的傳輸協議功能。PDS子層定義了一種具有多種操作模式的協議,提供可靠無序RUD、可靠有序(ROD)、冪等可靠無序(RUDI)、不可靠無序(UUD)幾種組合模式的數據包傳輸服務。
3. 擁塞控制(CMS)?
UET 定義了一種端到端的擁塞管理解決方案 UET-CC(UET Congestion Control),用于解決有損以太網中的數據包緩沖區擁塞問題。其目標是實現較高的網絡效率,減少數據包丟失,并確保競爭流之間的合理公平性。
4. 傳輸安全子層(TSS):
UET采用了新的密鑰管理機制,允許在參與作業的大量計算節點之間高效共享密鑰。推薦的加密算法是后量子(post-quantum) DES 密碼。
網絡層:擁塞應急機制
超以太網的網絡層功能規范是可選模塊,沒有對網絡層進行任何更改(依然是運行IP網絡),該部分主要討論的是數據包修剪(Packet Trimming)。
網絡交換機在繁忙的端口轉發數據包之前,會將其存儲在緩沖區中,且受到芯片面積的限制。如果緩沖區無法容納到達的數據包,交換機要么丟棄數據包,要么向上游端口發出暫停流量信號。眾所周知,這兩種解決方案都存在性能問題。
數據包修剪功能即是超以太網定義的一種應對交換機緩沖區不足的機制,是擁塞通知的一種附加機制,用于在網絡過載時減少數據負載。
簡言之是允許交換機截斷有爭議的數據包,修改截斷數據包的 DSCP 字段,并將截斷數據包作為擁塞信號轉發到目的地。數據包修剪提供的擁塞信息比ECN多得多。對于交換機來說,數據包修剪是可選的,而對于 FEP 來說,接收修剪后的數據包則是必須的。
修剪后的數據包通常由上層協議消耗,以確保快速重傳丟失的數據包。因此,在啟用修剪功能時,這些協議必須具有修剪感知能力,并且必須能夠根據收到的修剪數據包識別出原始數據包。

所以,其中有個關鍵的 MIN_TRIM_SIZE 必須配置為一個合適的值,以確保在修剪后不影響下一步操作。這個值需要交換機根據每個數據包的封裝類型動態地確定,設置為足夠保留所有相關傳輸頭所需的大小。
鏈路層:性能增強選項
超以太網規定的鏈路層旨在通過鏈路級的數據包替換和交換機之間的流量控制來提升整體性能鏈路層,這些都是可選功能,并且距離完全支持這些功能的產品得以商用還需要較長的時間。
1. 鏈路層重試(LLR)
LLR 機制基于幀。該機制下,從 MAC 客戶端發出的的每個幀都要進行評估。如果 MAC 客戶端不希望對幀進行 LLR,或該幀被歸類為不符合 LLR 條件,那么該幀將作為標準以太網幀發送。如果幀符合 LLR 條件,則會被分配一個序列號,并存儲在重傳緩沖區中,以便在對端未收到幀時進行快速重傳。
2. 基于Credit的流量控制(CBFC)
UE 傳輸(UET)層的定義是利用從源端重傳數據包,支持無序到達和擁塞控制等組件,來提供有損網絡下的端到端可靠數據包傳送(而逐跳鏈路是盡力而為的,允許因擁塞而丟棄數據包)。在許多情況下,按優先級進行鏈路層的無損數據包傳送也很有用,例如小型網絡和較低負載的場景由此可以簡化網絡管理和端側配置及其緩沖區要求。
CBFC 是在逐跳基礎上實現無損數據包傳輸的一種方法,可以消除端到端重傳的可能以及與之相關的延遲,其大致機制是:發送方以credit為單位跟蹤接收方的可用緩沖空間,只有當接收方有足夠的緩沖空間時,發送方的數據包調度器才可以從無損 VC 隊列中調度數據包進行傳輸。

3. 超以太網鏈路協商
該規范提倡使用描述所需和可選功能的“配置文件”,從而在所有網絡實體之間檢測、發現和達成共識,以便與配置文件支持的功能進行互操作。
生態落地實踐
作為 UEC 成員單位,星融元提供的超低時延數據中心交換機(CX-N系列)采用高性能的25G-800G 端口速率規格網絡硬件,搭載為生產環境深度調優的企業級SONiC發行版和多項 EasyRoCE 特性,提供靈活、廣大的升級空間,未來將平滑演進與新一代以太網標準保持同步。
-
AI
+關注
關注
88文章
35065瀏覽量
279331
發布評論請先 登錄
萬兆以太網規范
三菱Q系列PLC轉以太網通過CHNet-Q實現以太網通信及ModbusTCP配置方法
萬兆以太網規范解讀

技術解讀:800G以太網的標準和實現
超以太網聯盟成立,大廠一致抵御英偉達?

世界網絡節奏加快!200G/400G以太網近在眼前
以太網聯盟制定800Gbe規范 一秒鐘傳100GB文件

以太網技術聯盟發布了800千兆位以太網的規范
AMD、博通等巨頭發起超以太網聯盟
博通陳福陽:看好以太網成為AI算力集群最佳網絡協議
思科出席2023開放數據中心大會Silicon One賦能網絡架構創新

超越傳統以太網,揭秘UEC工作組的最新進展!

800G以太網技術到底有何好處?

揭秘超以太網聯盟(UEC)1.0 規范最新進展(2024Q4)

評論