一年一度的中國電子信息博覽會(CITE)在深圳舉辦。
借著這個電子信息產業最新產品和技術的國家級平臺,我們將自研的(也是業內最尖端的)800G 51.2T RoCE 交換機首次帶進了展會現場,并與華南地區的上下游企業,區域集成商合作伙伴進行了高密度的面對面交流。
短短三天,六米見方的展臺里,我們經歷了一次次來訪者的試探、不解,甚至當面挑戰,直到與我們建立起技術信任、向我們發出高層交流甚至現場測試的邀約。
這些有著不同技術市場背景和工作經歷的來訪者,往往理解行業、了解客戶、知道問題、渴望答案——他們或在星融元的展臺上找到了答案,或為星融元的持續創新帶來了啟發。

“都沒聽說過你們公司,有案例嗎”
此次展會多數都是AI服務器系統集成商,其中一位來訪者之前都是將服務器直接配置IB交換機整體打包給客戶。年初由于DeepSeek的爆火他們接觸到不少小規模算力組網需求,而當前國際市場環境下,采購英偉達IB交換機總歸有點風險(別說之前還遭遇過6個月交付周期+超預算的困境)。他見我們是做RoCE網絡的,于是帶著存疑的態度前來咨詢。
“都沒聽過你們公司,你們的產品在DeepSeek推理網有案例嗎?”
接待他的同事結合自己對DeepSeek開源模型理解,就著剛剛完成的基于星融元CX732Q-N(400G)的詳細組網方案給這位集成商介紹起來——我們的組網方案比起其它RoCE友商64口400G和32口400G成本更優;又如我們此前為沐曦C500 DeepSeek做的組網方案,一臺機器可以將訓練網、存儲網、業務網融合,簡單到網絡即插即用,完全可以替換IB,成本至少降低了三分之一;結合最近中美關稅政策,能降低一半。

至于性能,我們直接向他展示CX-N系列交換機與IB在AI智算,HPC和分布式存儲等場景的多個對比數據(–>測試報告參考)。一番溝通下來,這位項目經理直接與我們共享了之前給某運營商的DeepSeek AI硬件基礎設施報價, 其中全套IB的網絡價格直接與采購的AI服務器價格相近了,導致客戶認為網絡成本太高而沒能順利落單。
再細細核算一波,如果當時用我司設備組網,應該就能符合客戶預期了。
“Hash不均你們怎么解決”
有位算力行業的客戶來到我們展臺,他雖非網絡工程師,但對RoCE網絡在算力場景下的IB替代趨勢和面臨的一些挑戰已有不少了解。
與那位AI服務器系統集成商類似,他也問到了我們的RoCE網絡相對其他的廠家優勢所在,不過要更加具體。
“比如對于大模型中常見的hash不均,你們會怎么解決?”。他表示一般廠商會采用例如調整哈希因子之類的方式,但僅以他本人在項目中的感知,實際效果非常有限,不足以滿足需求,想知道我們是否還有其他辦法。
答案當然是肯定的,這幾乎也是每個算力網絡運維架構師都會問到我們的問題。具體來說,如果以軟件方式實現,我們完全可以采用“主動規劃”的思路為每條業務流提前規劃路徑,預先設置,生成腳本一鍵下發,就像提前給每輛車固定住了行駛的路線并且自動為客戶設備加載路由條目,這便是開放網絡的技術路線帶給客戶最直觀的價值體現之一。
除了主動規劃,還可以結合硬件能力的實現類似“自動駕駛”(動態哈希)方案,就好比讓每輛車自動選擇不堵車的線路和選擇多種解決hash不均的實現以適應不同的使用場景。
可惜時間場地受限,我們沒法在這個鬧哄哄的展臺長時間地交流。互相交換聯系方式后我們推薦他關注微信公眾號(與他談到的產品動態和技術分享多少都能在日常更新里找到),之后再預約時間深度交流,探討合作空間。
相關閱讀:解鎖AI數據中心潛力:網絡利用率如何突破90%?

“像IB一樣好用的RoCE網絡,真的嗎”
一位年輕的工程師站在展臺的EasyRoCE展示屏前面看了又看,似有疑慮但不知如何開口。主動上前三言兩語聊下來,我們大概了解到這位工程師是華南的一家規模很大的系統集成商的網絡方案架構師,這家集成商在網絡方面的主要業務之一是為客戶提供基于IB的網絡方案,應用場景主要是高性能計算和最近兩年爆火的AL/ML網絡。
吸引這位工程師流連在星融元展臺的主要原因是EasyRoCE提供的簡捷部署和整體監控方案。作為一位技術從業人員,這位工程師對RoCE技術、方案與產品已有很深入的理解,但是往往在考察了市面上現有的方案,考慮到的部署、實施、運維、監控等環節的挑戰之后,就被勸退了。
“我們的很多現場工程師往往只具備最基礎的運維能力,不能要求他們具備在現場去分析、定位交換機的隊列、水線以及它們之間復雜關聯的能力,他們更需要在問題發生的時候能夠一眼就看到故障點在哪里、然后快速解決……”,這位年輕人如是說。
在了解了EasyRoCE的工具集的各項能力之后,他表示能夠感覺到這些工具解決的問題真的是在很多方案中都遇到過的。
“你們這個方案是不是可以替換UFM了?”
的確,EasyRoCE工具集可以說就是星融元RoCE方案的“UFM”。我們將自己在過往兩三年中,在AI/ML的RoCE網絡部署中踩過的坑、碰到的問題,結合我們的技術能力,全部工具化了,通過這些工具將RoCE賦能給合作伙伴和最終用戶。
像IB一樣好用的RoCE網絡,這一點,我們來真的。

“這對IT運維排障人員太友好了!”
還是有關EasyRoCE。
在給某華南地區數據中心IT負責人介紹EasyRoCE多個小工具的時候,他看到光模塊地圖立刻叫了暫停,跟我們確定地圖上的不同顏色是否表示交換機的光模塊的運行狀態。在得到肯定答復后他忍不住感嘆:再也不用收到網絡故障通知后,不管三七二十一先挨個ssh到交換機上去show一下全局接口狀態了。“通過光模塊地圖一眼就可以排除物理因素,并且直觀定位故障模塊,這個東西對IT運維排障人員太友好了!”

“幾百萬的設備怕是還不如你們的SONiC交換機”
一位國內某量化交易公司的一線工程師在前臺拿著彩頁仔細看了好一會兒,才指著”高精度監控”向我們發問。算力系統經常出現毫秒級延遲波動,傳統網管工具完全無法定位。于是我們引導他前往展示區,結合遠程演示環境和數據,現場介紹如何捕捉由微突發引發的丟包。
“原來我們每年花幾百萬買的’高端設備’,精度還不如你們一臺白盒交換機!” 雖不知他們到底買了什么高端設備,但得到這樣的評價我們還是十分高興的,也期待后續有機會在他們的新建網絡中展示開放網絡的更大潛力。
“這小盒子玩得挺花,說不定我能用上”
800G 交換機之外,我們還帶了一臺半寬的開放硬件平臺:ET2500。這款設備我們尚未正式在國內市場發布,初步定位的場景是部署在企業出口,作為算網融合開放網關承擔從路由器、防火墻到網絡流量分析器的全部功能,替代原本用價格不菲的多臺專用設備串聯而成的出口架構。
不過,它的玩法絕不止于此——小小的盒子提供1G/2.5G/10G接口,內置了PoE模塊、PTP模塊、5G/LTE模塊,還能選配AI 加速卡和WiFi7/6E模塊和外置天線,加之上層運行的標準Linux和我們定制優化的DPDK/VPP軟件包(已開源),給足了用戶想象空間。

有位路過的客戶轉頭一瞥就被我們的ET2500外觀吸引住了,左右打量半天,開口問的第一個問題是,這個小盒子能幫我做算力調度嗎?
接著就暢談他們的業務場景:算力調度網絡,把分布在全國的零散算力資源統一調度起來,分布式計算的場景和ET2500(以及此前發布的 CX102S-DPU)天然契合——小盒子里面的三顆芯片協同工作,可以幫他們極大減少邊緣部署的設備數量和復雜度。經過一番業務場景的溝通和探討之后,他對這款小盒子非常感興趣,留下了聯系方式并表示后續要再交流探討。
電博會上與星融元偶遇的這些人,那些事,再一次堅定了我們用高效、實用的開放網絡技術棧幫助各行業客戶切實解決問題的信心,并將其作為星融元在這個充滿著挑戰和機遇的全球市場上不變的生存與發展之道。

-
網絡交換機
+關注
關注
1文章
69瀏覽量
16315 -
算力
+關注
關注
2文章
1142瀏覽量
15441 -
智算中心
+關注
關注
0文章
88瀏覽量
1978
發布評論請先 登錄
STM32CubeIDE編譯設置是否有像keil一樣有編譯后執行Bat腳本的功能和設置?
網線可以像電線一樣接嗎
STM32CUBEide有沒有像KEIL一樣可以自己指定函數注釋模板的方法?
Stm32CubeIDE能像Keil一樣指定不同文件下的代碼編譯到不同的FLASH地址嗎?
請問激光投影中激光光源能否像LED一樣瞬時開關?
請問DAC5682寄存器如何設置,有像DAC5682 EVM一樣有軟件程序設置嗎?
RoCE與IB對比分析(一):協議棧層級篇

每次Vivado編譯的結果都一樣嗎

評論