超高帶寬、超低延遲、超高可靠,這是大模型訓練對于網(wǎng)絡的要求。
多年來,TCP/IP協(xié)議一直是互聯(lián)網(wǎng)通信的支柱,但對于AI網(wǎng)絡來說,TCP/IP 在某些方面存在著致命的缺點。TCP/IP協(xié)議的時延較高,通常在數(shù)十微秒左右,同時還會對CPU造成嚴重的負載。RDMA能直接通過網(wǎng)絡接口訪問內(nèi)存數(shù)據(jù),無需操作系統(tǒng)內(nèi)核的介入。這允許高吞吐、低延遲的網(wǎng)絡通信,尤其適合在大規(guī)模并行計算機集群中使用。
RDMA技術有四種實現(xiàn):InfiniBand、RoCEv1、RoCEv2和iWARP。其中,RoCEv1已被棄用,iWARP也不太常用。目前業(yè)界常用的網(wǎng)絡解決方案是InfiniBand和RoCEv2。
那么,InfiniBand和RoCE,誰更適合AI數(shù)據(jù)中心網(wǎng)絡?
HPC/AI 工作負載對網(wǎng)絡有什么要求?
目前數(shù)據(jù)中心大多采用二層網(wǎng)絡架構(gòu),而AI 集群是為執(zhí)行復雜的大規(guī)模 AI 任務構(gòu)建的超級計算機。計算機工作負載在多個 GPU 上并行運行,需要得到高度利用。因此,相較于傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡,AI數(shù)據(jù)中心網(wǎng)絡面臨著額外的復雜性:
并行計算:AI 工作負載是運行相同應用程序/計算任務的多臺機器的統(tǒng)一基礎設施;
規(guī)模:HPC/AI任務的規(guī)模可以達到數(shù)千個計算引擎(如GPU、CPU、FPGA 等);
作業(yè)類型:不同的任務在大小、運行持續(xù)時間、需要考慮的數(shù)據(jù)集大小和數(shù)量、需要生成的答案類型以及用于編碼應用程序的不同語言和它運行的硬件類型等方面有所不同,這都會導致為運行HPC/AI工作負載而構(gòu)建的網(wǎng)絡內(nèi)流量模式不斷地變化;
無損:在傳統(tǒng)數(shù)據(jù)中心中,丟失的消息會重傳,而在AI 工作負載中,丟失消息意味著整個計算要么錯誤,要么被卡住。因此,AI 數(shù)據(jù)中心需要一個無損的網(wǎng)絡。
帶寬:高帶寬流量需要在服務器之間運行,以便應用程序能夠獲取數(shù)據(jù)。在現(xiàn)代部署中,AI 或其他高性能計算功能的每個計算引擎的接口速度達到 400Gbps。
這些復雜性都對AI 網(wǎng)絡提出了重大挑戰(zhàn),因此AI 數(shù)據(jù)中心網(wǎng)絡需要具有高帶寬、低延遲、無抖動、無數(shù)據(jù)包丟失和長期穩(wěn)定等特點。
從TCP/IP到RDMA
對于HPC/AI等低延遲、高I/O并發(fā)的應用,現(xiàn)有的TCP/IP軟硬件架構(gòu)無法滿足應用需求。傳統(tǒng)的TCP/IP網(wǎng)絡通信使用內(nèi)核來發(fā)送消息,這種通信模式具有較高的數(shù)據(jù)移動和數(shù)據(jù)復制開銷。比如,在典型的 IP 數(shù)據(jù)傳輸中,當一臺計算機上的應用程序向另一臺計算機上的應用程序發(fā)送數(shù)據(jù)時,接收端會發(fā)生以下操作:
內(nèi)核必須接收數(shù)據(jù)。
內(nèi)核必須確定數(shù)據(jù)屬于應用程序。
內(nèi)核喚醒應用程序。
內(nèi)核等待應用程序?qū)?nèi)核執(zhí)行系統(tǒng)調(diào)用。
應用程序?qū)?shù)據(jù)從內(nèi)核內(nèi)存空間復制到應用程序提供的緩沖區(qū)中。
此過程意味著,如果主機適配器使用直接內(nèi)存訪問 (DMA),則大多數(shù)網(wǎng)絡流量都會在系統(tǒng)主內(nèi)存中復制。此外,計算機還執(zhí)行一些上下文切換以在內(nèi)核和應用程序之間進行切換。這些上下文切換可能會導致更高的 CPU 負載和高流量,同時減慢其他任務的速度。
TCP/IP傳輸
與傳統(tǒng)的IP通信不同,RDMA通信繞過了通信過程中的內(nèi)核干預,允許主機直接訪問另一個主機的內(nèi)存,減少了 CPU 開銷。RDMA 協(xié)議使主機適配器能夠在數(shù)據(jù)包進入網(wǎng)絡后決定哪個應用程序應該接收它,以及將其存儲在該應用程序內(nèi)存空間中的位置。主機適配器不是將數(shù)據(jù)包發(fā)送到內(nèi)核進行處理并將其復制到用戶應用程序的內(nèi)存中,而是直接將數(shù)據(jù)包內(nèi)容放入應用程序緩沖區(qū)中。
RDMA傳輸
RDMA傳輸降低了所涉及的CPU周期數(shù),有助于提高吞吐量和性能。換句話說,RDMA的本質(zhì),是對于大規(guī)模分布式計算存儲的場景,讓網(wǎng)卡繞開CPU,配合遠端服務器直接存取內(nèi)存,加速服務器之間的交互,降低時延,把寶貴的CPU資源用于高價值的計算與邏輯控制上。
與傳統(tǒng)TCP/IP網(wǎng)絡相比,InfiniBand和RoCEv2繞過了內(nèi)核協(xié)議堆棧,延遲性能可以提高幾個數(shù)量級。在同一集群內(nèi)的通信可以在單跳中實現(xiàn)的情況下,實驗測試表明,繞過內(nèi)核協(xié)議堆棧后,應用層的端到端延遲可以從50us(TCP/IP)減少到5us(RoCE)或2us(InfiniBand)。
InfiniBand網(wǎng)絡簡介
Infiniband網(wǎng)絡通過Infiniband適配器或交換機而不是以太網(wǎng)來實現(xiàn)數(shù)據(jù)傳輸。特定類型的以太網(wǎng)交換機的端口到端口延遲為 230 ns,而具有相同端口數(shù)量的 InfiniBand 交換機的延遲為 100 ns。
InfiniBand網(wǎng)絡的關鍵組件包括子網(wǎng)管理器(SM)、IB網(wǎng)卡、IB交換機和IB線纜。InfiniBand交換機不運行任何路由協(xié)議,整個網(wǎng)絡的轉(zhuǎn)發(fā)表由集中式子網(wǎng)管理器計算和分發(fā)。除了轉(zhuǎn)發(fā)表外,SM還負責管理InfiniBand子網(wǎng)中的分區(qū)和QoS等配置。InfiniBand網(wǎng)絡需要專用線纜和光學模塊來互連交換機并將交換機連接到網(wǎng)卡。
本地無損網(wǎng)絡
InfiniBand網(wǎng)絡利用基于信用令牌機制,從根本上避免緩沖區(qū)溢出和數(shù)據(jù)包丟失。發(fā)送端只有在確認接收端有足夠的信用來接受相應數(shù)量的報文后才會啟動分組傳輸。
InfiniBand網(wǎng)絡中的每個鏈路都有一個預定的緩沖區(qū)。發(fā)送端不會傳輸超過接收端可用的預定緩沖區(qū)大小的數(shù)據(jù)。一旦接收端完成轉(zhuǎn)發(fā),就會釋放緩沖區(qū),并將當前可用的預定緩沖區(qū)大小持續(xù)返回給發(fā)送端。這種鏈路級流量控制機制確保了發(fā)送端不會發(fā)送過多的數(shù)據(jù),防止網(wǎng)絡緩沖區(qū)溢出和數(shù)據(jù)包丟失。
網(wǎng)卡擴展能力
InfiniBand的自適應路由基于每包動態(tài)路由,確保大規(guī)模部署中網(wǎng)絡的最佳利用。InfiniBand網(wǎng)絡有許多大型GPU集群的例子,如百度人工智能云和微軟Azure。
InfiniBand網(wǎng)卡在速度方面一直在快速發(fā)展,200Gbps HDR已經(jīng)大規(guī)模部署商用,400Gbps NDR的網(wǎng)卡也開始商業(yè)部署。目前,市場上有英偉達、英特爾、思科和HPE等主要的InfiniBand網(wǎng)絡解決方案和配套設備提供商。其中,英偉達占有最高的市場份額,超過70%。下圖顯示了常用的InfiniBand網(wǎng)卡。
RoCE v2網(wǎng)絡簡介
RoCE通過以太網(wǎng)實現(xiàn)RDMA功能,可以繞過TCP/IP并使用硬件卸載,從而降低CPU利用率。RoCE有兩個主要版本:RoCEv1和RoCEv2。RoCEv1是基于以太網(wǎng)鏈路層實現(xiàn)的RDMA協(xié)議。交換機需要支持PFC等流控技術,以保證物理層的可靠傳輸。RoCEv2是在以太網(wǎng)TCP/IP協(xié)議的UDP層實現(xiàn)的,引入IP協(xié)議是為了解決可擴展性問題。
RoCEv2支持在第三層以太網(wǎng)絡上傳輸RDMA路由。RoCEv2將InfiniBand網(wǎng)絡層替換成以太網(wǎng)鏈路層上的IP和UDP報頭,這使得在基于IP的傳統(tǒng)路由器之間路由RoCE成為可能。
InfiniBand網(wǎng)絡在某種程度上是具有SM(子網(wǎng)管理器)的集中管理網(wǎng)絡,而RoCEv2網(wǎng)絡是一個純分布式網(wǎng)絡,由支持RoCEv1的NIC和交換機組成,通常采用兩層體系架構(gòu)。
RoCE網(wǎng)卡的主要供應商是英偉達、英特爾和博通等。PCIe卡是數(shù)據(jù)中心服務器網(wǎng)卡的主要形式。RDMA卡的端口PHY速度通常從50Gbps開始,當前可用的商用網(wǎng)卡可以實現(xiàn)高達400Gbps的單端口速度。
目前,大多數(shù)數(shù)據(jù)中心交換機都支持RDMA流量控制技術,當該技術與支持RoCE的網(wǎng)卡結(jié)合時,可以實現(xiàn)端到端的RDMA通信。數(shù)據(jù)中心交換機主要玩家包括思科、HPE、Arista等。高性能交換機的核心在于它所使用的轉(zhuǎn)發(fā)芯片。當前市場上,博通的Tomahawk系列芯片被廣泛應用于商業(yè)轉(zhuǎn)發(fā)芯片中。其中,Tomahawk3系列芯片是目前交換機中較為常用的,市場上支持Tomahawk4系列芯片的交換機也在逐漸增加。
IB vs.RoCE
與InfiniBand相比,RoCE具有更大的通用性和相對較低的成本。它不僅可以用于構(gòu)建高性能RDMA網(wǎng)絡,還可以用于傳統(tǒng)以太網(wǎng)。然而,在交換機上配置Headroom、PFC(基于優(yōu)先級的流量控制)和ECN(顯式擁塞通知)等參數(shù)可能會很復雜。在大規(guī)模部署中,RoCE網(wǎng)絡的總體吞吐量性能可能略低于InfiniBand網(wǎng)絡。
從技術角度來看,InfiniBand采用了多種技術來提高網(wǎng)絡轉(zhuǎn)發(fā)性能,減少故障恢復時間,提高可擴展性,并降低操作復雜性。
在業(yè)務性能方面,與RoCEv2相比,InfiniBand的端到端延遲較低,因此構(gòu)建在InfiniBand上的網(wǎng)絡在應用程序級業(yè)務性能方面具有優(yōu)勢。
在帶寬和延遲方面,擁塞和路由等因素會影響高性能網(wǎng)絡互連。
擁塞
InfiniBand 使用兩種不同的幀中繼消息來控制擁塞:前向顯式擁塞通知 (FECN) 和后向顯式擁塞通知 (BECN)。當網(wǎng)絡出現(xiàn)擁塞時,F(xiàn)ECN 通知接收設備,而 BECN 則通知發(fā)送設備。InfiniBand 將FECN 和 BECN與自適應標記率相結(jié)合,以減少擁塞。它提供了粗粒度的擁塞控制。
RoCE 上的擁塞控制使用顯式擁塞通知 (ECN),它是 IP 和 TCP 的擴展,可以在不丟棄數(shù)據(jù)包的情況下啟用端點網(wǎng)絡擁塞通知。ECN 在 IP 報頭上放置一個標記,告訴發(fā)送方存在擁塞。對于非 ECN 擁塞通信,丟失的數(shù)據(jù)包需要重傳。ECN 減少了 TCP 連接擁塞造成的數(shù)據(jù)包丟失,避免了重傳。更少的重傳可以減少延遲和抖動,從而提供更好的事務和吞吐量性能。ECN 也提供粗粒度擁塞控制,與 InfiniBand 相比沒有明顯優(yōu)勢。
路由
當網(wǎng)絡中出現(xiàn)擁塞時,自適應路由會通過備用路由發(fā)送設備,以緩解擁塞并加快傳輸速度。RoCE v2 運行在 IP 之上。幾十年來,IP 一直通過先進的路由算法實現(xiàn)可路由,現(xiàn)在通過 AI 機器學習可以預測擁塞的路由,并自動通過更快的路由發(fā)送數(shù)據(jù)包。在路由方面,以太網(wǎng)和 RoCE v2 具有顯著的優(yōu)勢。
然而,InfiniBand 和 RoCE 對于尾部延遲沒有做太多處理。尾部延遲對于 HPC 消息應用程序的同步非常重要。
UEC準備定義新的傳輸協(xié)議
除了InfiniBand 和 RoCE 外,業(yè)界還提出了其他的協(xié)議。
7 月 19 日,超以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium,UEC) 正式成立。UEC 的目標是超越現(xiàn)有的以太網(wǎng)功能,提供針對高性能計算和人工智能進行優(yōu)化的高性能、分布式和無損傳輸層。UEC 的創(chuàng)始成員包括 AMD、Arista、博通、思科、Eviden 、HPE、Intel、Meta和微軟,都擁有數(shù)十年的網(wǎng)絡、人工智能、云和高性能計算大規(guī)模部署經(jīng)驗。
UEC認為幾十年前定義的RDMA 在要求極高的 AI/ML 網(wǎng)絡流量中已過時,RDMA以大流量塊的形式傳輸數(shù)據(jù),這些大流量可能會導致鏈路不平衡和負擔過重。現(xiàn)在是時候重新開始為新興應用構(gòu)建支持 RDMA 的現(xiàn)代傳輸協(xié)議的時候了。
據(jù)悉,UEC 傳輸協(xié)議正在開發(fā)中,旨在提供比目前的 RDMA 更好的以太網(wǎng)傳輸(仍支持 RDMA),在提供AI和HPC應用程序所需性能的同時保留以太網(wǎng)/IP的優(yōu)勢。UEC 傳輸是一種靠近傳輸層的新形式,它有一些語義調(diào)整、擁塞通知協(xié)議,并且增強了安全功能。UEC將提供更靈活的傳輸,不需要無損網(wǎng)絡,允許many-to-many人工智能工作負載所需的多路徑和無序數(shù)據(jù)包傳輸?shù)裙δ堋?/p>
更多的企業(yè)力量
隨著HPC/AI網(wǎng)絡的不斷發(fā)展,越來越多的企業(yè)開始推出自研的網(wǎng)絡協(xié)議或解決方案,以滿足其特定的需求。
騰訊云在其星脈網(wǎng)絡中采用了自研的星脈 RDMA 網(wǎng)絡,可以讓 GPU 之間直接進行數(shù)據(jù)通信,CPU 資源得以節(jié)省,從而提高計算節(jié)點的整體性能和效率。通過自研端網(wǎng)協(xié)同協(xié)議 TiTa ,星脈網(wǎng)絡可以實現(xiàn) 90% 負載 0 丟包。TiTa 協(xié)議內(nèi)嵌擁塞控制算法,以實時監(jiān)控網(wǎng)絡狀態(tài)并進行通信優(yōu)化,使得數(shù)據(jù)傳輸更加流暢且延遲降低。
阿里云磐久PredFabric采用自研的Solar-RDMA高速網(wǎng)絡協(xié)議,使處理器可以通過load/store指令訪問其他任意服務器的內(nèi)存,非常適合深度學習模型內(nèi)神經(jīng)網(wǎng)絡的交互形態(tài),相比傳統(tǒng)模式故障自愈時間和長尾時延均可降低90%。
華為超融合數(shù)據(jù)中心網(wǎng)絡使用獨創(chuàng)的iLossless智能無損算法,通過流量控制技術、擁塞控制技術和智能無損存儲網(wǎng)絡技術三大關鍵技術的相互配合,提前預防PFC死鎖的發(fā)生、緩解/解除擁塞、實現(xiàn)對主機的快速管控,從而達到構(gòu)建無損以太網(wǎng)絡,解決傳統(tǒng)以太網(wǎng)絡擁塞丟包的問題。
不斷增長的市場需求是技術發(fā)展的根本驅(qū)動力。根據(jù) IDC 的數(shù)據(jù),2023 年AI基礎設施建設投資將達到 1540億 美元,到 2026 年將增長到 3000億 美元。2022 年,AI網(wǎng)絡市場已達到 20億 美元,其中 InfiniBand 貢獻了 75% 的收入。
在比較InfiniBand和RoCE時,我們可以看到兩者都有各自的優(yōu)勢和適用場景。IB在高性能計算領域表現(xiàn)出色,可提供卓越的性能、低延遲和可擴展性。RoCE則更容易集成到現(xiàn)有以太網(wǎng)基礎設施中,并具有較低的成本。而以UEC為代表的新興傳輸協(xié)議也代表了技術的不斷發(fā)展與創(chuàng)新。唯有適應不斷變化的需求,才能保持核心競爭力。
審核編輯:湯梓紅
-
數(shù)據(jù)中心
+關注
關注
16文章
5132瀏覽量
73187 -
AI
+關注
關注
87文章
34153瀏覽量
275323 -
TCP
+關注
關注
8文章
1397瀏覽量
80373 -
大模型
+關注
關注
2文章
3020瀏覽量
3814
原文標題:IB和RoCE,誰更適合AI數(shù)據(jù)中心網(wǎng)絡?
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
InfiniBand 連接現(xiàn)在和未來
RS-485網(wǎng)絡解決方案的穩(wěn)定性演示
IPv4網(wǎng)絡和IPv6網(wǎng)絡互連技術對比分析哪個好?
STM32網(wǎng)絡的三大件
二階網(wǎng)絡函數(shù)的模擬

二階網(wǎng)絡特性測量

InfiniBand的SMI/O模塊的電源管理解決方案

華為端到端NVMe over RoCE增強方案亮相,打造高性能算力的高速公路
基于網(wǎng)絡地址和協(xié)議轉(zhuǎn)換實現(xiàn)IPv4網(wǎng)絡和IPv6網(wǎng)絡互連

關于InfiniBand網(wǎng)絡相關內(nèi)容簡介!

InfiniBand與以太網(wǎng)標準的區(qū)別
縱覽:InfiniBand與以太網(wǎng)標準之異同
深入探索InfiniBand網(wǎng)絡、HDR與IB技術

RoCE協(xié)議簡介和應用分析

評論