女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智算網絡路徑質量三要素:帶寬/隊列/時延在智能選路中的協同優化

星融元Asterfusion ? 2025-06-13 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在長期服務于用戶AI訓練/推理生產網絡的實踐中,我們深刻觀察到傳統靜態或簡單度量(如跳數)的選路策略難以滿足高性能AI集群網絡的嚴苛要求。AI工作負載,特別是涉及大規模參數同步(如All-Reduce操作)和RDMA(如RoCEv2)流量時,對網絡的帶寬可用性、低延遲和極低抖動有著近乎極致的需求。

網絡路徑上的微小波動,如短暫擁塞導致的隊列積壓或轉發延遲增加,都可能顯著拖慢整個訓練作業的完成時間,造成昂貴的算力資源浪費。

智能選路的路徑質量如何判定?

為了從根本上優化AI流量的傳輸效率并最大化集群利用率,我們設計并實踐了基于多維度網絡狀態感知的動態智能選路技術。該技術的核心創新在于,聚焦關鍵影響因子,摒棄單一指標,精準識別并引入在AI集群網絡環境中對性能影響最為顯著的動態參數作為核心計算因子:

  • 實時帶寬利用率:精確測量路徑上關鍵鏈路的當前可用帶寬。避免將高吞吐量的AI流量(如梯度同步)引導至已接近飽和的鏈路,防止擁塞崩潰和PFC反壓風暴。
  • 隊列深度/使用情況: 直接監控網絡設備(交換機)出口隊列的瞬時和平均深度。隊列深度是擁塞的先行指標,深度過大意味著數據包排隊等待時間(Bufferbloat)增加,直接導致傳輸延遲上升和抖動加劇,這對依賴確定性的RDMA和集合通信操作是致命的。
  • 轉發時延/延遲變化: 不僅測量路徑的基礎傳播延遲,更關鍵的是持續監測數據包轉發處理延遲及其變化(抖動)。這反映了設備本身的處理能力和當前負載狀態,高或波動的處理時延會破壞AI流量的同步性。

智能選路中的統計計數:ASIC賦能的高精度數據采集

在動態智能選路系統的實現中,帶寬利用率與隊列深度這兩大關鍵指標的采集直接依賴于網絡設備的ASIC硬件級能力。具體而言:

硬件級實時監測(百毫秒級精度)

ASIC芯片內置的硬件寄存器持續執行線速統計,對每個端口的字節轉發計數(Byte Counter) 和各優先級隊列的緩存占用計數(Queue Depth Counter) 進行原子級累加。這種基于硅片級電路的計數機制擺脫了軟件輪詢的延遲與性能開銷,可實現百毫秒級精度的數據捕獲,精準反映瞬時網絡擁塞狀態。

控制面高效采集(亞秒級同步)

運行于設備控制面的SONiC網絡操作系統,通過標準化的SAI(Switch Abstraction Interface)接口以亞秒級周期(通常為500ms) 主動讀取ASIC寄存器的統計快照。此設計確保控制面能夠近乎實時地感知轉發芯片的狀態變化,為動態選路提供高時效性數據輸入。

wKgZPGhL1YWAdsMxAABivehbs5M780.png

流水線式數據處理與存儲

采集的原始計數器數據通過以下高效流水線處理:

  • ① 增量計算:SAI層將本次讀數與上次讀數做差,計算出時間窗口內的實際流量增量(ΔBytes)與隊列深度變化值(ΔQueue-Occupancy)。
  • ② Redis高速緩存:處理后的增量數據被寫入內存數據庫Redis的時序結構(TSDB)中,形成帶時間戳的指標序列。此架構滿足高吞吐、低延遲的數據存取需求,為后續分析提供支撐。

BGP宣告的優化設計(秒級間隔)?

若按ASIC的亞秒級精度(如每100ms)通過BGP宣告路徑質量,會導致控制面壓力劇增,頻繁生成和傳輸BGP Update消息,占用CPU和帶寬資源。微秒級變化也可能觸發不必要的路由更新,影響網絡穩定性。所以,采用秒級間隔?(例如每秒1次)向鄰居發送BGP Update消息,攜帶加權平均后的路徑質量值。路徑質量通過BGP擴展社區屬性?(如Path Bandwidth Extended Community)傳遞,格式為浮點數(單位Gb/s)

納秒級時延測量:INT與HDC技術負載均衡中的深度應用

轉發時延計算因子基于INT(In-band Network Telemetry)技術,精度可達納秒級。HDC(High Delay Capture)是一種能捕獲ASIC中經歷高延遲的數據包信息的INT技術。

INT硬件流水線實現原理

數據包進入交換機ASIC時,入口流水線在包頭插入INT Shim頭部,并記錄精確入端口時間戳(基于芯片級高精度時鐘,分辨率達納秒級)。轉發過程中,每個流水線階段(如Ingress/Egress隊列)實時追加時延元數據。包離開出口隊列時,ASIC計算,此設計消除了交換機基礎轉發延遲的影響,僅保留隊列排隊時延這一關鍵變量。

HDC(高延遲捕獲)技術深度解析

HDC是INT的功能擴展,專為捕捉網絡中的尾延遲(Tail Latency) 事件設計。只捕獲超過用戶預設閾值(如10μs)的異常延遲報文,實現靶向抓包而非全量監控。ASIC硬件實時比對報文時延與閾值——當報文在隊列/緩存中的滯留時間超過閾值,立即觸發抓取動作。并將原始數據包的前150字節連同INT元數據(包含出入端口、時延等關鍵信息)作為HDC數據包發送到收集器。

wKgZO2hL1hqAR6TSAAAtyi-_KRQ388.png

動態閾值觸發機制

  • 用戶可基于業務需求設置多級延遲閾值(如:關鍵RDMA流:>5μs、普通TCP流:>50μs)
  • ASIC硬件實時比對每個包的實際隊列時延與閾值,觸發零拷貝抓包。

元數據結構化封裝

HDC告警包包含兩類關鍵信息:

  • 原始包摘要:截取L2-L4層頭部(150字節),保留五元組、TCP標志位等特征
  • INT元數據:

{ "ingress_port": "Ethernet1/1", "egress_port": "Ethernet1/2", "queue_id": 3, // 擁塞隊列ID "queue_depth": 16384, // 觸發時隊列深度(Bytes) "latency": 8.7, // 實測時延(μs) "timestamp": 1717501234567890 // 納秒級時間戳 }

落地實踐:AI RoCE交換機上的智能選路

動態智能選路技術在星融元交換機上開啟HDC功能,并將CPU作為HDC的收集分析器,通過分析HDC報文實現高精度測量交換機轉發時延,并將時延信息作為路徑質量評價因子,提高路徑質量評價精度。

wKgZPGhL1nKAcNx4AABn9b6Zis0759.png

命令行配置HDC功能控制INT進程運行,之后通過socket連接進行收包循環,將收取到的報文進行解析并將關鍵信息(出入端口、轉發時延等)寫入數據庫。

wKgZO2f_KWuARgXBAATWmy-z1C8378.png

【參考文檔】

動態感知+智能決策,一文解讀 AI 場景組網下的動態智能選路技術

BGP在數據中心的應用2——BGP如何適應數據中心網絡_bgp bestpath as-path multipath-relax-CSDN博客

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網絡
    +關注

    關注

    14

    文章

    7796

    瀏覽量

    90632
  • AI
    AI
    +關注

    關注

    88

    文章

    34781

    瀏覽量

    277146
  • 負載均衡
    +關注

    關注

    0

    文章

    121

    瀏覽量

    12572
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    EMC三要素的耦合路徑

    當干擾源---耦合路徑---敏感器三要素同時存在,才會出現EMC問題,缺少三要素的任何一個,EMC問題都不會存在。
    發表于 03-13 14:50 ?2930次閱讀
    EMC<b class='flag-5'>三要素</b><b class='flag-5'>中</b>的耦合<b class='flag-5'>路徑</b>

    EMC的規律和三要素

    給環境以干擾。下面我們認識以下EMC領域的個重要規律和EMC問題要素:一、EMC個重要規律規律一、EMC費效比關系規律:EMC問題越早考慮、越早解決,費用越小、效果越好。
    發表于 03-17 08:44

    嵌入式系統的三要素

      嵌入式系統三要素  嵌入式系統的個基本要素是嵌入性、專用性與計算機系統。  (1)嵌入性是把軟件嵌入到Flash存儲器,  (2)專用性是指針對某個具體應用領域和場合,量體裁衣
    發表于 06-28 08:48

    單片機工作的最小系統三要素

    單片機工作的最小系統是指使單片機可以工作的最少原件組成的系統。主要包括三要素:電源,晶振,復位電路
    發表于 01-22 07:35

    交流電的三要素分別是什么

    交流電的三要素分別是什么?極管實現放大作用的外部條件是什么?
    發表于 09-27 06:17

    請問通信協議的三要素是什么?

    通信協議的三要素是什么?
    發表于 10-27 07:32

    切削用量三要素

    切削用量三要素:進給速度,切削深度,金屬切除率:單位時間內切除單位體積的多少.
    發表于 03-18 11:01 ?6631次閱讀
    切削用量<b class='flag-5'>三要素</b>

    力的三要素是什么?什么是力?

    力的三要素是什么?力的大小、方向和作用點合稱為“力的三要素”。常用有向線段來表示力。線段的長度跟力的大小成正比,箭頭表示力的方向,線段的起點表
    發表于 03-18 11:13 ?2.1w次閱讀

    電能質量存在哪些問題?有什么危害?電能質量三要素介紹

    摘要:電能質量的好壞已經關乎到我們的日常生活,那么在生活電能質量存在哪些問題?它又有什么危害?電能質量三要素介紹是哪些?
    發表于 12-11 10:45 ?2.5w次閱讀

    正弦交流電三要素

    本文首先介紹了什么是正弦交流電,其次介紹了正弦交流電三要素,最后闡述了正弦交流電的特點。
    的頭像 發表于 08-25 09:54 ?11.1w次閱讀

    電信企業引入人工智能具備了三要素的良好基礎

    對于電信行業引入人工智能,王志勤表示,運營企業或者電信企業引入人工智能具備三要素的良好基礎。首先是數據,電信網絡每年自身產生大量百PB級的數據,同時本身作為管道有大量數據傳送;再者,
    發表于 09-28 09:08 ?1602次閱讀

    數據模型的三要素

    本視頻主要詳細介紹了數據模型的三要素,分別是數據結構、數據操作和數據約束。
    的頭像 發表于 02-28 15:57 ?2.3w次閱讀

    影響視頻格式三要素

    如果我們把一段視頻看做一個裝著貨物的“盒子”,那像MP4和FLV這些視頻格式,就是封裝貨物的盒子,盒子內部打包著不同的“貨物”,如視頻原圖、聲音、字幕等資源。而視頻原圖的分辨率、幀率和碼率這種因素,則是影響視頻質量三要素
    的頭像 發表于 05-10 11:24 ?2323次閱讀

    電能質量三要素 電能質量的指標有哪些

    電能質量是指電力系統電能的各種物理參數(如電壓、電流、功率、頻率、電壓波動、電壓閃變、諧波畸變等)是否達到滿足用戶需求的要求。而電能質量三要素是指電壓、頻率穩定性以及諧波電壓畸變度
    發表于 04-09 15:25 ?1.7w次閱讀

    神經網絡三要素包括什么

    神經網絡是一種受生物神經網絡啟發而發展起來的數學模型,它在人工智能、機器學習、計算機視覺等領域有著廣泛的應用。神經網絡三要素包括神經元、權
    的頭像 發表于 07-11 11:05 ?2229次閱讀