萬卡集群的多租戶網絡配置面臨超大規模資源隔離難、動態拓撲管理復雜、故障定位效率低三大核心挑戰:在多租戶共享物理網絡的場景下,需保障無損帶寬(如RDMA)與租戶級QoS,避免帶寬爭用導致訓練延遲激增;萬級節點的動態擴縮容要求自動化工具替代傳統人工腳本,以應對頻繁的配置變更與跨廠商設備兼容性問題;同時,超大規模網絡拓撲的可視化監控能力不足,導致鏈路擁塞、丟包等故障排查耗時,直接影響AI訓練等高敏感任務的連續性。
基于SONiC的AI智算網絡多租戶自動化部署實踐
A-Lab是星融元為新一代網絡運維工程師打造的技術專欄,聚焦開放網絡架構下的配置指南與創新實踐。訪問鏈接:https://asterfusion.com/alab-for-netdevops/
在云數據中心與智算中心場景中,多租戶網絡的核心目標是通過共享物理基礎設施實現資源高效利用,同時保障租戶間的邏輯隔離與數據安全。傳統方案依賴VLAN、VXLAN或NVGRE等虛擬化技術,但隨著規模擴展,配置復雜度陡增,人工操作易引發策略沖突或安全風險。
基于SONiC開源生態的AI智算網絡解決方案,推出EasyRoCE-MVD(Multi-Tenant VPC Deployer)工具,助力用戶實現多租戶網絡的快速隔離與自動化部署。該工具深度集成于AsterNOS(自研的SONiC發行版),支持參數配置、存儲資源及業務網絡的多維聯動,顯著降低運維門檻。
EasyRoCE Toolkit 是面向AI智算與超算場景的RoCE網絡增強套件,涵蓋一鍵配置、高精度監控等特性。
詳情訪問:https://asterfusion.com/easyroce/
EasyRoCE Toolkit 的關鍵能力與架構
1. 自動化部署與開放集成
批量配置:通過腳本或圖形化界面(GUI)自動生成配置模板,支持遠程批量下發至交換機集群。
靈活部署:工具可獨立運行于服務器,或通過API/SDK嵌入第三方管理平臺,兼容SONiC標準接口。
2. 多租戶網絡架構設計
Underlay網絡:基于Spine-Leaf物理架構,采用BGP協議實現高效互聯,依托低時延交換機(全端口支持RoCEv2),提供穩定帶寬與亞微秒級轉發性能。
Overlay網絡:通過VXLAN構建虛擬化層,與Underlay解耦,為租戶分配獨立子網及策略空間。SONiC的模塊化設計支持動態擴展VNI資源池,避免地址沖突。
3. 網絡規劃與配置生成
智能規劃:通過EasyRoCE-AID(AI Infrastructure Designer)工具,輸入業務需求(如租戶數量、帶寬要求)后,自動生成VXLAN分段、IP地址池及BGP鄰居關系的JSON配置文件(mvd.json)。
MVD 工具將解析上一步驟得到的JSON文件中的設備信息、BGP鄰居信息,并為集群中的交換機生成對應配置。
4、可視化運維與閉環驗證
MVD 運行時會以 Exporter 形式將以上配置信息暴露于http監聽端口(如18080,18180),該數據可被 Prometheus 調用并將其呈現在 Grafana 界面上,供用戶直觀瀏覽現網設備的拓撲信息。
用戶可在GUI中逐條核對配置,選擇全量或分批次下發。SONiC的配置原子性保障策略生效零中斷。
方案價值與產品生態
AI智算網絡解決方案以AsterNOS為核心(基于SONiC深度優化),結合800G超低時延交換機,為多租戶場景提供開放、解耦的智算網絡底座。其優勢包括:
開放生態:完全兼容SONiC社區標準,支持與Kubernetes、OpenStack等平臺集成。
無損網絡:全端口原生支持RoCEv2,結合EasyRoCE工具實現AI訓練流量零丟包。
自動化閉環:從規劃、部署到運維的全生命周期自動化,減少人工干預。
立即行動,如需獲取定制化方案或技術咨詢,請聯系星融元團隊,開啟智能網絡升級之旅。
審核編輯 黃宇
-
AI
+關注
關注
88文章
35211瀏覽量
280354
發布評論請先 登錄
燧原科技國產萬卡集群通過中國信通院權威認證
弘信電子旗下燧弘華創加入萬卡智算集群服務推進方陣
開放生態+極簡運維:多租戶園區網絡的云原生管理實踐

首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手
DeepSeek推動AI算力需求:800G光模塊的關鍵作用
開關柜一鍵順控在一鍵停電、一鍵送電中的作用
首發 | 昆侖芯 | 國產AI卡Deepseek訓練推理全版本適配、性能卓越,一鍵部署等您來(附文檔下載方式)

昆侖芯P800萬卡集群成功點亮,將進一步點亮3萬卡集群

評論