女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

算力革命:RoCE實測推理時延比InfiniBand低30%的底層邏輯

星融元Asterfusion ? 2025-05-28 14:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能與大數據技術爆發的時代,算力基礎設施的革新成為驅動產業升級的核心引擎。作為 AI 數據中心網絡架構的關鍵樞紐,800G 智能交換機正以其極致的性能、靈活的擴展性和智能化的管理能力,重新定義高速網絡的標準。

本文將深度解析 AI 智算場景打造的800G AI RoCE交換機,從外部規格的硬件創新到內部架構的芯片級設計,從企業級操作系統的功能突破到實測數據的性能驗證,全方位展現其如何通過領先的技術架構破解 AI 訓練與推理中的網絡效率瓶頸,助力數據中心在高帶寬、低延遲、高可靠性的需求下實現算力資源的最優配置。

算力基礎設施—AI 智算RoCE網絡交換機

外觀展示

這款 800G AI 智能交換機在配備了 64 個 800G OSFP 網絡接口,能夠支持25G/50G/100G/200G/400G 等多種速率,可靈活適配不同的網絡環境需求。

wKgZPGg25GyAfgIEAAIXun1_7h4777.png

管理接口提供了 RJ45 MGMT Port、USB 2.0 Port 以及 RJ45 Console Port,為設備的管理和配置提供了豐富的選擇。還具備 2 個 10G 端口,可作為 INT 端口用于其他管理功能,為設備的擴展應用提供了可能。

交換機設有 6 個 LED 指示燈,左側的 LED 指示燈(LINK/ACT)用于展示管理口的網絡鏈路狀態和數據活動情況,右側的 LED 指示燈(SYS)則顯示系統整體狀態,此外還有 BMC(面板管理控制器狀態)、P(電源模塊狀態)、F(風扇模塊狀態)和 L(定位指示燈,用于維護期間識別設備),通過這些指示燈,運維人員可以快速了解設備的運行狀況。

采用 1+1 熱插拔電源設計,每個電源額定功率 3200W,且符合 80Plus 鈦金能效標準,確保了設備供電的穩定和高效。同時,配備 3+1 個熱插拔風扇模塊,為設備的散熱提供了可靠保障。

內部架構

wKgZPGg25HqAXKZBAAOVwicNkcI709.png

采用了 Marvell Teralynx 10 ASIC(以下簡稱TL10),這是一款 5 納米單芯片可編程處理器,能提供 51.2Tbps 帶寬和約 560 納秒的端口轉發時延,在業內處于領先水平。更詳細的內部架構請參見:51.2T 800G AI智算交換機軟硬件系統設計全揭秘 - 星融元Asterfusion

散熱設計上,采用 3D 均熱風冷散熱,這種高效的風冷設計使系統在 2180W 滿負荷運行時仍能有效控制溫度和噪音,即便在高負荷使用狀態下,風扇轉速僅為 60%,保證了設備的穩定運行和良好的工作環境。

精確時間協議 PTP 模塊支持熱插拔,PTP 和 SyncE 同步精度高達 10 納秒,為對時間同步要求高的應用場景提供了有力支持。

COMe 模塊由 x86 英特爾至強處理器和 AsterNOS 驅動,為先進的數據中心 / 人工智能路由提供智能控制平面。面板管理控制器(BMC)模塊采用可插拔式設計,適用于模塊化、可升級的帶外管理,支持性能升級擴展,增強了設備的可擴展性和靈活性。

AI RoCE 交換機操作系統(AsterNOS)

wKgZPGg25IGAF148AAHlqNfq3kk878.png

基于企業級SONiC的增強特性

  • 超高速以太網優化:通過動態流量整形和優先級隊列技術,實現網絡利用率超90%,較傳統以太網提升30%。
  • AI場景專屬功能flowlet級負載均衡:根據GPU集群負載動態分配流量,減少數據擁塞。INT+WCMP路由:結合帶內遙測與加權多路徑算法,訓練任務延遲降低20.4%,token生成速率提升27.5%。

wKgZO2g25I6AfQkYAAD_Rju6o6M292.png
  • EasyRoCE :EasyRoCE 是星融元依托開源、開放的網絡架構與技術,為AI 智算、高性能計算等場景的RDMA 融合以太網(RoCE)提供的一系列實用特性和小工具。從前期規劃實施到日常運維監控, EasyRoCE 簡化了各環節的復雜度并改善了操作體驗,更提供二次開發和集成空間,供網絡架構師充分利用開放網絡的最新技術成果
wKgZPGg25JmATYQeAAAwG46x8vk054.png

(RE)RoCE Exporter:以容器的方式運行在AsterNOS網絡操作系統內,從運行AsterNOS的交換機設備上導出RoCE網絡相關監控指標(到自定義HTTP端口),供統一監控平臺進行可視化呈現。

wKgZPGg25KaAe8wBAAXT32jFjjU430.png
  • 接口收發帶寬和速率
  • RoCE、PFC、ECN、DSCP配置狀態信息
  • 擁塞控制信息(ECN標記包,PFC幀數等)
  • 隊列Buffer信息
  • ……

企業版 SONiC vs 社區版

wKgZO2g25K6AIq99AAEo8iooweM796.pngwKgZO2g25KuAf94gAADkNX8502k685.pngwKgZPGg25LWANnhXAAC1P13ADHo064.png

AsterNOS 同時支持 Linux Bash 和思科風格命令行界面(Klish),這種雙風格命令行界面幫助網絡工程師輕松適應并快速部署,提升了操作的便利性和效率。

wKgZO2g25L-Af_UoAACsbLS2vwA734.png

800G 數據中心交換機(TL10平臺)實測數據

wKgZO2g25MaALdsjAAK8GsXLvBQ086.png

CX864E-N蛇形吞吐測試

wKgZPGg25M2AYQRKAALdQVgFLNY035.png

CX864E-N的端口轉發時延

實測數據展示了該交換機在不同測試場景下的出色表現,各項指標均達到較高水平,驗證了其性能的穩定性和可靠性。

DeepSeek模型推理指標對比:IB vs RoCE

  • 推理時延:90% token 間隔延遲,指 90% token 間隔時間的最大值,用以衡量模型連續生成 token 的穩定性和連貫性。推理時延越低,系統的穩定性越高。
  • Token 平均生成速率(Token Generation Rate):單位為 token 每秒(tokens/s)。反映了模型推理的整體吞吐能力,TGR 越高,表示系統單位時間內處理能力越強。
wKgZO2g25NSAb_W9AAAkJr1HFTo508.pngwKgZPGg25NyAe5IqAAAcyS1SqJI623.png

與IB網絡場景下數據對比可見,星融元RoCEv2組網,推理時延明顯優于IB,token 連貫性更好;token生成速度、中文字符速度明顯優于IB。

800G AI智能交換機通過硬件革新與AsterNOS軟件協同,為AI算力集群與超大規模數據中心提供“高吞吐、低時延、易運維”的一站式解決方案。其模塊化設計、企業級SONiC支持及RoCEv2性能優勢,正加速AI基礎設施向開放解耦、智能高效的下一代架構演進。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • InfiniBand
    +關注

    關注

    1

    文章

    31

    瀏覽量

    9398
  • 算力
    +關注

    關注

    2

    文章

    1199

    瀏覽量

    15649
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    億鑄科技入圍工信部強基揭榜行動

    、網絡、計算的協同優化,旨在通過模型加速與調度加速等創新方法,實現大規模異構集群在大模型推理場景下的性能躍升,為我國人工智能產業提供更具能效
    的頭像 發表于 06-30 14:57 ?368次閱讀

    RoCE網絡規劃還在手動IP?這套工具讓運維效率飆升

    隨著AI集群規模指數級增長,網絡架構復雜度陡增。傳統網絡規劃依賴人工計算與經驗判斷,存在效率、易出錯、可視化弱三大痛點。尤其在RoCE(RDMA over Converged E
    的頭像 發表于 06-30 14:33 ?570次閱讀
    <b class='flag-5'>RoCE</b>網絡規劃還在手動<b class='flag-5'>算</b>IP?這套工具讓運維效率飆升

    后摩智能入圍工信部強基揭榜行動

    近日,工業和信息化部(以下簡稱“工信部”)辦公廳印發《關于公布強基揭榜行動入圍名單的通知》,后摩智能憑借 “高能效邊端側大模型推理加速處理器” 成功入圍。這是國家行業管理部門對后
    的頭像 發表于 06-26 18:00 ?456次閱讀

    地平線余凱稱輔助駕駛的底層邏輯正在改寫

    從大模型黑馬DeepSeek,到春晚出圈的宇樹機器人,人工智能撬動的科技創新引領又一輪產業革命。這印證了“生產決定生產關系”的底層邏輯,當科技動能觸發的“十倍生產
    的頭像 發表于 06-03 13:59 ?378次閱讀

    RAKsmart智能架構:異構計算+網絡驅動企業AI訓練范式升級

    在AI大模型參數量突破萬億、多模態應用爆發的今天,企業AI訓練正面臨效率與成本的雙重挑戰。RAKsmart推出的智能架構,以異構計算資源池化與超低時
    的頭像 發表于 04-17 09:29 ?316次閱讀

    芯片的生態突圍與革命

    據的爆發式增長,大芯片已成為科技競爭的核心領域之一。 ? 大芯片的核心應用場景豐富多樣。在人工智能訓練與推理方面,大模型(如 GPT
    的頭像 發表于 04-13 00:02 ?1718次閱讀

    DeepSeek推動AI需求:800G光模塊的關鍵作用

    隨著人工智能技術的飛速發展,AI需求正以前所未有的速度增長。DeepSeek等大模型的訓練與推理任務對的需求持續攀升,直接推動了服務
    發表于 03-25 12:00

    工業4.0革命利器!明遠智睿SSD2351核心板:低成本+高,破解產線智能化難題

    行業痛點:傳統工業設備智能化改造面臨三大瓶頸——不足導致實時性差、接口資源有限難以擴展多設備、進口方案成本高昂且供貨不穩定。 核心板方案價值: 明遠智睿SSD2351核心板基于SigmaStar
    發表于 03-21 14:22

    信而泰CCL仿真:解鎖AI極限,智中心網絡性能躍升之道

    中心RoCE網絡提供精準評估方案,助力企業突破瓶頸,釋放AI澎湃動力! 什么是智中心 智中心(AIDC,Artificial Int
    的頭像 發表于 02-24 17:34 ?447次閱讀
    信而泰CCL仿真:解鎖AI<b class='flag-5'>算</b><b class='flag-5'>力</b>極限,智<b class='flag-5'>算</b>中心網絡性能躍升之道

    DeepSeek對芯片的影響

    架構的核心理念是將整個模型劃分為多個子模型(專家),每個子模型負責特定的任務,且在實際推理時并非激活所有專家,而是根據輸入數據選擇性激活需要的專家。對于芯片
    的頭像 發表于 02-07 10:02 ?1122次閱讀
    DeepSeek對芯片<b class='flag-5'>算</b><b class='flag-5'>力</b>的影響

    調度的基礎知識

    編者按 “調度”的概念,這幾年越來越多的被提及。剛聽到這個概念的時候,我腦海里一直拐不過彎。作為底層芯片出身的我,一直認為:是硬件的
    的頭像 發表于 11-27 17:13 ?852次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>調度的基礎知識

    RoCE與IB對比分析(一):協議棧層級篇

    在 AI 建設中, RDMA 技術是支持高吞吐、延遲網絡通信的關鍵。目前,RDMA技術主要通過兩種方案實現:InfinibandRoCE
    的頭像 發表于 11-15 13:58 ?2178次閱讀
    <b class='flag-5'>RoCE</b>與IB對比分析(一):協議棧層級篇

    當前主流的大模型對于底層推理芯片提出了哪些挑戰

    隨著大模型時代的到來,AI逐漸變成重要的戰略資源,對現有AI芯片也提出了前所未有的挑戰:大的需求、高吞吐量與延時、高效內存管理、能
    的頭像 發表于 09-24 16:57 ?1188次閱讀

    TLV3201電流檢測電路的時應該怎么

    TLV3201請教一下大佬。這種電流檢測電路的時應該怎么?這里的時指的是從輸入電流發生變化到比較器輸出反饋的時間。 我的理解是放大器的建立時間+比較器的傳輸時嘛?比如按照
    發表于 07-31 07:19