女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Spectrum X如何推動英偉達網絡業務實現31億美元收入

奇異摩爾 ? 來源:奇異摩爾 ? 2024-11-25 11:41 ? 次閱讀

英偉達數據中心收入繼續擴大

北京時間11月21日凌晨,英偉達發布本季度財報,公司實現營收350.8億美元,同比增長93.6%,好于彭博一致預期(332億美元)。公司收入增長,主要受數據中心業務需求增長的帶動。在AI等需求的帶動下,2025財年第三季度英偉達的數據中心業務在公司收入中的份額繼續擴大,本季度達到了87.7%。

b02b2104-a8ba-11ef-93f3-92fbcf53809c.png

(Source:海豚投研)

細分來看,數據中心業務中計算收入為276億美元,同比增長132%;網絡收入為31億美元,同比增長20%,這得益于益于Ethernet for AI,其中包括Spectrum X端到端以太網平臺。據統計,AI網絡NVIDIA Spectrum-X以太網AI收入同比增長超過3倍。

就在不久前,AI網絡產業剛爆出了一項大新聞。馬斯克僅用了122天就塑造了xAI 位于田納西州孟菲斯市的 Colossus 超級計算機集群,該集群使用10萬張NVIDIA Hopper GPU加速卡,超過1500個GPU機架,堪稱全球最大AI超級計算機集群。

實際上,該集群使用了 NVIDIA Spectrum-X 以太網網絡平臺,該平臺是專為多租戶、超大規模的 AI 工廠提供卓越性能而設計的 RDMA網絡而并不是InfiniBand網絡。

NVIDIA聲稱專門面向 AI 的 Spectrum-X 以太網網絡具有先進的功能,可在提供高效、可擴展的帶寬的同時,實現低延遲和短尾延遲,而這些功能之前是 InfiniBand 網絡所獨有的。

NVIDIA基于 AI 的 Spectrum-X 以太網系統是一整套AI Networking的全家桶組合包括需要購買Spectrum-X交換機、Bluefield SuperNIC以及相關光模塊及線纜組件。

基于以太網的Spectrum-X特性

我們根據超大以太網集群所面臨的通信挑戰來了解下基于以太網的Spectrum-X方案如何優化基于以太網的RDMA功能。

部分內容結合Nvidia AI Networking Whitepaper 編譯

基于以太網的NVIDIA Spectrum-X:專為生成式AI時代設計

AI云作為支持生成式AI工作負載的新型數據中心類別,正日益受到業界的關注。這類數據中心不僅繼承了傳統云的核心功能,如多租戶支持、安全性保障和多樣化的工作負載支撐,更在支持更大規模的生成式AI應用方面展現出卓越能力。生成式AI是一類基于訓練數據生成新輸出的人工智能算法,其以圖像、文本、音頻等多種形式創造全新內容,與旨在識別模式和進行預測的傳統人工智能系統形成鮮明對比。 NVIDIA Spectrum-X構建了以太網多租戶、超大規模AI云而精心設計的革命性解決方案,它完美契合了生成式AI時代的發展需求。

無損網絡與RDMA

在有損網絡環境中,數據傳輸過程中面臨著丟失或質量下降的風險。這種網絡傾向于優先考慮數據傳輸的速度而非準確性。然而,對于AI應用而言,丟包導致的后果可能是災難性的,包括性能下降、GPU資源的空閑浪費以及功耗的額外開銷。

b063641a-a8ba-11ef-93f3-92fbcf53809c.png

圖1:GPU-GPU的RDMA通信實現示意圖

無損網絡則完全改變了這一局面。在這種網絡中,數據傳輸的完整性得到嚴格保障,所有數據包都能夠準確無誤地到達目的地。盡管以太網最初的設計確實允許一定的丟包率,但在InfiniBand網絡中,無損是基本要求。

隨著GPU計算和大規模AI應用場景在云環境中的廣泛應用,以太網也通過采用RoCE(RDMA over Converged Ethernet)和基于優先級的流量控制(PFC,Priority Flow Control)等技術,結合無損網絡的實現,使用NVIDIA Spectrum-X,為AI應用提供了更加可靠和高效的解決方案。 遠程直接內存訪問(RDMA,Remote Direct Memory Access)技術的出現,進一步提升了網絡傳輸的效率。它允許數據在遠程系統、GPU和存儲器之間直接傳輸,無需經過CPU的干預。傳統的網絡傳輸方式涉及多個復雜的步驟,包括數據的復制、網絡發送以及接收方的多步驟處理。而RDMA則直接跨越了這些繁瑣的中間環節,實現了數據的高效傳輸。我們在之前的Kiwi Talks有敘述過目前RDMA面對大規模集群存在的問題及建議。

挑戰與方案1:自適應路由、多路徑與數據包噴灑

傳統數據中心的應用程序通常會產生大量的小數據流,這使得網絡流量的統計平均值能夠反映整體情況。在這種背景下,基于簡單靜態哈希的路由算法,如等價多路徑(ECMP,Equal Cost Multi-Path),足以應對常見的網絡流量問題。

然而,人工智能工作負載的特性卻截然不同。它們通常會產生少量的大數據流,被稱為“大象流”(elephant flows)。這些大象流會占用大量的鏈路帶寬,如果多個大象流被路由到同一鏈路,就會導致嚴重的擁塞和高延遲。在人工智能應用中,即使是在非阻塞拓撲中使用ECMP,大象流之間的碰撞幾率也非常高。由于AI作業的性能高度依賴于最壞情況下的表現,這些碰撞會導致模型訓練時間既超出預期又變得極為不穩定。

b0819bd8-a8ba-11ef-93f3-92fbcf53809c.png

圖2:NVIDIA:Spectrum-X以太網自適應路由的細粒度數據包示意圖

因此,NVIDIA引入自適應路由算法來動態平衡網絡中的數據傳輸。此外,路由的精細度也至關重要,以避免大象流之間的碰撞。即使按流量進行路由,仍然存在擁塞的可能性。然而,當采用數據包噴灑(Packet Spraying)技術,即按每個數據包進行路由時,數據包可能會以無序的方式到達目的地。為了實現數據包粒度的自適應路由,我們需要建立靈活的重新排序機制,確保自適應路由對應用程序來說是透明的。

挑戰與方案2:擁塞控制

在繁忙的多租戶AI云環境中,不同AI作業并行運行時,網絡擁塞問題往往難以避免。尤其是當大量發送方試圖向單一目的地或不同目的地(這些目的地可能已受到其它應用背景流量的影響)傳輸數據時,網絡擁塞現象尤為顯著。這種擁塞不僅會導致延遲飆升和有效帶寬急劇縮減,還可能引發網絡“熱點”的擴散,造成相鄰租戶的相互干擾,即受害者效應。

b094221c-a8ba-11ef-93f3-92fbcf53809c.png

圖3:NVIDIA:Spectrum-X以太網擁塞控制與交換機和NVIDIA BlueField SuperNIC協同工作

傳統的擁塞控制方法,如顯式擁塞通知(ECN,Explicit Congestion Notification),在支持生成式AI的以太網環境中顯得捉襟見肘。為了有效緩解擁塞,負責數據傳輸的網絡設備(如NIC或DPU)必須進行精確的流量控制。然而,ECN機制在交換機緩沖區接近滿載時才開始發揮作用,此時接收方會通知發送方限制其發送速率。但在大規模AI模型常見的突發流量場景下,這種延遲的擁塞反饋可能導致緩沖區迅速填滿,進而引發丟包問題。盡管深度緩沖交換機能夠降低緩沖區溢出的風險,但它們引入的額外延遲卻削弱了擁塞控制的初衷。

實現高效的擁塞控制需要交換機與網卡NIC之間的緊密協作。NVIDIA Spectrum-X通過利用Spectrum-4交換機的帶內、硬件加速的遙測數據,為BlueField-3 SuperNIC提供實時的流量計量信息。

挑戰與方案3:性能隔離與安全性多租戶環境如AI云,必須確保各個作業之間的性能隔離,以免受到其它作業的網絡流量干擾。遺憾的是,許多以太網ASIC設計在性能隔離方面考慮不足。這導致某些作業在面臨“近鄰干擾”(noisy neighbor)(即向同一端口發送流量的相鄰作業)時,其有效帶寬可能會急劇下降。 以太網網絡在設計時還需考慮網絡公平性。AI云應支持多種異構應用程序的混合運行。由于不同應用程序可能使用不同大小的數據幀,如果沒有適當的隔離優化措施,大數據幀可能會占用過多的帶寬資源,導致小數據幀傳輸受阻。

實現性能隔離和防止“近鄰干擾”的關鍵在于采用共享數據包緩沖區。通過為所有作業提供平等的緩存訪問權限,共享緩沖區能夠確?;旌螦I云工作負載的穩定性和低延遲。

b0a51acc-a8ba-11ef-93f3-92fbcf53809c.png

圖4:強調通用共享數據包緩沖區架構與分割緩沖區實現之間重要性

除了從帶寬角度考慮性能隔離外,我們還應認識到性能隔離與零信任架構對于多租戶環境網絡安全的重要性。數據無論是在靜止狀態還是傳輸過程中,都需要得到嚴格的保護。高效的加密和認證工具能夠在不犧牲性能的前提下提供強大的安全保障。BlueField-3 DPU集成了安全引導功能,為基于硬件的信任根提供了堅實基礎,并支持MACsec和IPsec等協議用于數據加密,以及AES-XTS 256/512等加密算法用于靜態數據的保護。

以上是英偉達對基于以太網Spectrum-X解決方案的部分優勢特性總結;

UEC 超以太聯盟對標 NVIDIA Spectrum

b0afe2c2-a8ba-11ef-93f3-92fbcf53809c.png

我們已經了解UEC是專門為AI網絡Scale -out互聯成立的國際聯盟,目的是全面優化RDMA的功能,從而實現更大規模的AI網絡集群的高效運作。

UEC 主要在Transport Layer傳輸層做了全面的優化,不限于消息語義優化、數據包傳輸、擁塞控制及可靠性安全性等目前大規模集群擴展需要優化的功能。

UEC支持自適應路由及數據包噴灑

超以太聯盟下一代的Modernized RDMA將支持多路徑傳輸的數據包噴灑技術,從而優化自適應路由。UEC支持了RUD,UET就可以將同一個流的不同包分散到多個路徑上同時傳輸,實現包噴灑功能。這讓交換機可以充分發揮ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,將去往同一目的地的數據包通過多條路徑發送,大幅度提高網絡利用率。

b0bee074-a8ba-11ef-93f3-92fbcf53809c.png

(來源:AMD

UEC將支持端到端遙測Telemetry

新的UEC對于擁塞做出了優化機制:來自網絡的擁塞信息可以向參與者提供擁塞的位置和原因。縮短擁塞信號路徑并向端點提供更多信息,能夠實現更快速的擁塞控制。無論是發送方還是接收方安排傳輸,現代交換機都可以通過快速傳遞準確的擁塞信息給調度器或起搏器pacer,促進響應式的擁塞控制,從而提高擁塞控制算法的響應速度和準確性。結果是減少了擁塞、降低了丟包率和縮短了隊列長度——所有這些為改善尾部延遲提供了服務。

UEC支持安全性與加密

UEC傳輸協議從設計之初就融入了網絡安全概念,能夠加密并驗證AI訓練或推理作業中計算端點間發送的所有網絡流量。UEC傳輸協議借鑒了現代加密方法(如IPSec和PSP)中用于高效會話管理、認證和保密的核心技術。隨著作業規模的擴大,必須在不使主機和網絡接口的會話狀態急劇膨脹的前提下支持加密。為此,UET(UEC傳輸)引入了新的密鑰管理機制,允許成千上萬個參與同一作業的計算節點之間高效共享密鑰。它被設計成能在AI訓練和推理所要求的高速和大規模下高效實現。托管在大型以太網網絡上的高性能計算(HPC)作業具有類似的特征,同樣需要相當的安全機制。這意味著UEC傳輸不僅能滿足AI領域的需求,也能適應HPC環境中對于安全性和性能的嚴格要求,確保數據在大規模網絡中的傳輸既高效又安全。

b0c41e0e-a8ba-11ef-93f3-92fbcf53809c.png

UEC成員Arista公司表示,“當PCI總線因主機CPU上的競爭工作負載或降速等原因出現擁塞時,通常需要使用ECN(顯式擁塞通知)標記。Arista在實現ECN標記方面經驗豐富,可以對經過擁塞隊列的數據包進行標記。此外,該公司還支持即將推出的多種網絡內遙測(In-Network Telemetry)技術,它們能提供更細粒度的網絡擁塞隊列深度信息,從而全面支持網絡內遙測。這項新技術預計將與超以太網的網卡和未來的RDMA一起發揮更大作用?!?/p>

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據中心
    +關注

    關注

    16

    文章

    5130

    瀏覽量

    73185
  • AI
    AI
    +關注

    關注

    87

    文章

    34146

    瀏覽量

    275303
  • 英偉達
    +關注

    關注

    22

    文章

    3920

    瀏覽量

    93092

原文標題:AI網絡熱點 | NVIDIA Spectrum X如何推動英偉達網絡業務實現31億美元收入

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    英偉單季營收破300美元!Q2全球半導體Top15,幾家歡喜幾家愁?

    分析師預期的150美元。但是英偉發布的Q3業績展望不及預期,股價下跌了7%。 同時,與英偉
    的頭像 發表于 08-30 01:06 ?4000次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>單季營收破300<b class='flag-5'>億</b><b class='flag-5'>美元</b>!Q2全球半導體Top15,幾家歡喜幾家愁?

    英偉2026財年Q1營收公布 一季度營收441美元 英偉Q1凈利潤187.8美元

    英偉的業績暴漲神話依然在繼續,在5月29日英偉公司發布了2026財年第一季度財報。財報數據顯示,該季度英偉
    的頭像 發表于 05-29 17:58 ?141次閱讀

    英偉市值一夜蒸發近2萬億 英偉股價下跌超8%

    在美東時間周一,美股三大指數集體收跌,截至收盤,英偉股價下跌超8%,英偉市值一夜蒸發2650美元
    的頭像 發表于 03-04 10:19 ?510次閱讀

    英偉財報發布!Q4凈利潤220.91美元

    英偉達日前公布最新財報,其2025財年第四季度營收393美元,比去年同期增長78%,其中數據中心業務收入為356
    的頭像 發表于 02-27 15:30 ?325次閱讀

    英偉四季度營收393美元 英偉第四財季凈利潤增80%

    根據全球AI龍頭英偉公司發布的截至1月26日的2025財年第四財季營業數據報告顯示;第四財季營收達到393.31美元,較去年同期增長78%,高于分析師事前預期的380.5
    的頭像 發表于 02-27 15:18 ?618次閱讀

    Tenstorrent獲7美元融資,貝索斯參投挑戰英偉

    AI芯片初創公司Tenstorrent近日宣布獲得高達7美元的融資,公司估值也隨之攀升至26美元。此次融資旨在挑戰英偉
    的頭像 發表于 12-03 11:07 ?671次閱讀

    行業動態 | 英偉市值,躍升全球第一

    受專用人工智能芯片需求旺盛推動英偉股價周五創下歷史新高,這也讓其取代蘋果成為全球市值最高的公司。LSEG的數據顯示,Nvidia的股票市值一度觸及3.53萬億
    的頭像 發表于 10-29 08:07 ?627次閱讀
    行業動態 | <b class='flag-5'>英偉</b><b class='flag-5'>達</b>市值,躍升全球第一

    英偉年度研發支出超120美元,為AMD的兩倍之多

    研發費用被視為預示未來收入增長的關鍵高質量指標之一,而英偉NVIDIA)因其不斷上調的未來季度營收預期,在研發領域的領先地位超越包括AMD在內的競爭對手,實屬意料之中。   
    的頭像 發表于 10-15 15:53 ?1180次閱讀

    英偉擬1.65美元收購OctoAI

    英偉再次展現其在AI領域的雄心壯志,計劃以約1.65美元的價格收購西雅圖軟件初創公司OctoAI。據OctoAI向股東披露的文件,英偉
    的頭像 發表于 09-20 17:09 ?1073次閱讀

    英偉市值蒸發近2000美元

    英偉Nvidia)在周四的美股交易中遭遇了重大挫折,股價暴跌超過6%,市值瞬間蒸發近2000美元。這一戲劇性下滑源于公司最新財報未能滿
    的頭像 發表于 08-30 15:38 ?648次閱讀

    英偉Blackwell芯片預計在第四季度大規模生產

    8月29日,英偉揭曉了其2025財年第二季度的財務報告,展現出強勁的增長勢頭。該季度,英偉實現了300
    的頭像 發表于 08-29 15:34 ?847次閱讀

    英偉Q2銷售額翻倍 分析師預測營收286美元 利潤187美元

    , Zacks Investment Research 分析師預計英偉公司第二季度整體收入增長可能達到?109%。而Hargreaves Lansdown 分析師則預測?英偉
    的頭像 發表于 08-27 14:36 ?854次閱讀

    英偉發布新版NVIDIAApp

    英偉推出了 NVIDIA App 測試版?10.0.2 版本,?NVIDIA App新版本新增功能包括顯示設置、RTX 視頻增強控制、應用排序,以及面向其他國家 / 地區用戶的應用翻
    的頭像 發表于 08-07 16:16 ?1080次閱讀

    英偉收購軟件初創公司Shoreline

    近日,全球知名的圖形處理器制造商英偉NVIDIA)宣布了一項重要的收購計劃,將以約1美元的價格收購軟件初創公司Shoreline。這次
    的頭像 發表于 06-21 11:08 ?838次閱讀

    NVIDIA Spectrum-X 以太網網絡平臺已被業界廣泛使用

    云服務提供商、GPU 云提供商和企業用戶紛紛采用 Spectrum-X;NVIDIA 網絡通過廣大系統制造商進入各個市場。 ? NVIDIA 于今日宣布
    的頭像 發表于 06-03 18:20 ?1254次閱讀