在當今AI、大模型飛速發(fā)展的時代,RDMA(Remote Direct Memory Access,遠程直接內(nèi)存訪問)網(wǎng)絡技術(shù)憑借其低延遲、高吞吐量的特性,在數(shù)據(jù)中心、高性能計算等領(lǐng)域得到了廣泛應用。然而,許多企業(yè)在嘗試對 RDMA 網(wǎng)絡進行監(jiān)控時,卻常常遭遇閉源監(jiān)控工具的限制。本文將為您揭示如何突破這些限制,實現(xiàn)對 RDMA 網(wǎng)絡的高效監(jiān)控。
為什么需要強化RDMA網(wǎng)絡監(jiān)控?
這里需要提到SNMP網(wǎng)絡管理技術(shù)(Simple Network Management Protocol,簡單網(wǎng)絡管理協(xié)議),它由三部分組成:SNMP管理器(NMS)、SNMP代理(Agent)和管理信息庫(MIB)。SNMP管理器通過SNMP協(xié)議與網(wǎng)絡設備上的SNMP代理通信,獲取設備的運行狀態(tài)和性能數(shù)據(jù),從而實現(xiàn)對網(wǎng)絡的監(jiān)控和管理。
SNMP監(jiān)控的應用場景其實相對廣泛,比如監(jiān)控路由器、交換機、防火墻等網(wǎng)絡設備的接口流量、CPU利用率、內(nèi)存使用情況、服務器硬件的硬盤空間、電源狀態(tài)等,但SNMP監(jiān)控也存在輪詢機制導致的數(shù)據(jù)收集實時性較弱、可擴展性弱、配置管理繁瑣等問題。
隨著業(yè)務的發(fā)展和網(wǎng)絡規(guī)模的擴大,RDMA網(wǎng)絡的復雜性增加,如果仍然用傳統(tǒng)的SNMP監(jiān)控,可謂是費力不討好。所以一個能夠快速部署的高性能監(jiān)控方案必不可少。從數(shù)據(jù)安全和隱私保護的角度講,強化RDMA網(wǎng)絡監(jiān)控也可以確保數(shù)據(jù)傳輸?shù)陌踩裕乐刮唇?jīng)授權(quán)的訪問和數(shù)據(jù)泄露,滿足合規(guī)性要求。
開源監(jiān)控工具有哪些?
在開源生態(tài)中,中小企業(yè)可以共享大廠開源的技術(shù)成果,其可靠性高、支持自定義、成本低成為越來越多的企業(yè)選擇開放網(wǎng)絡架構(gòu)的原因,這也說明網(wǎng)絡的開源與開放將是未來的趨勢,那目前有哪些開源的監(jiān)控工具呢?
Nagios:是一款廣泛使用的開源網(wǎng)絡監(jiān)控工具,其高度可定制,擁有強大的插件生態(tài)系統(tǒng)、強大的社區(qū)支持和定期更新,高級通知選項,可及時提醒用戶關(guān)鍵問題。
Zabbix:是一款企業(yè)級開源網(wǎng)絡監(jiān)控工具,以其可擴展性和性能而聞名,高級數(shù)據(jù)收集和可視化功能。強大的社區(qū)支持和詳盡的文檔。
Prometheus:Prometheus是一款現(xiàn)代開源監(jiān)控解決方案,專為系統(tǒng)指標和性能監(jiān)控提供廣泛洞察。它最初由SoundCloud開發(fā),因其云原生方法而受到歡迎。強大的時間序列數(shù)據(jù)存儲和查詢能力(PromQL)。支持微服務架構(gòu),易于集成。
......
不同的開源工具有不同的優(yōu)勢和亮點,如何選擇更具性價比的方案呢?
由于云原生架構(gòu)的模塊化和松耦合特性,使其具備靈活性、敏捷性、成本效益等多重優(yōu)勢,無論是對開發(fā)團隊還是對業(yè)務方來講,都是極具效率與性價比的方案。經(jīng)過幾年的發(fā)展,云原生這個概念已經(jīng)得到了社區(qū)、企業(yè)和市場的廣泛認可。從當前比較熱門的云原生技術(shù)、容器來看,云原生已經(jīng)在眾多行業(yè)和領(lǐng)域,有了許多落地的案例,包括高科技、金融、制造、零售、教育、政府等。
雖然Nagios和Zabbix可以通過插件和配置來支持云原生環(huán)境,但它們的適配性確實不如Prometheus。Prometheus在云原生環(huán)境中的表現(xiàn)更為出色,特別是在容器監(jiān)控、服務發(fā)現(xiàn)和大規(guī)模集群監(jiān)控方面。
企業(yè)自行部署Prometheus實現(xiàn)監(jiān)控可行嗎?答案是可行,但是需要運維人員自行配置和部署,過程復雜,對運維人員的技術(shù)要求也比較高。
星融元基于在開放網(wǎng)絡領(lǐng)域深耕多年的積累,敏銳地識別到了企業(yè)面臨RDMA網(wǎng)絡監(jiān)控的痛點,即需要簡捷高效的網(wǎng)絡運維。
星融元如何實現(xiàn)更高效的RDMA網(wǎng)絡監(jiān)控?
全場景硬件產(chǎn)品支持
RDMA(Remote Direct Memory Access,遠程直接內(nèi)存訪問)是一種高性能網(wǎng)絡通信技術(shù),允許用戶級應用程序直接讀取和寫入遠程內(nèi)存,而無需經(jīng)過CPU進行多次內(nèi)存復制。這種技術(shù)顯著降低了延遲和CPU開銷,提高了數(shù)據(jù)傳輸?shù)男省2⑶摇DMA技術(shù)對網(wǎng)絡丟包非常敏感,因此,為了充分發(fā)揮RDMA的性能,需要構(gòu)建一個無丟包的網(wǎng)絡環(huán)境,即無損網(wǎng)絡,通過PFC(優(yōu)先級流量控制)和ECN(顯式擁塞通知)等技術(shù),確保網(wǎng)絡在高負載情況下仍能保持低延遲和高吞吐量。
區(qū)別于傳統(tǒng)廠家多等級License權(quán)限管理方式,星融元CX-N數(shù)據(jù)中心交換機所有應用場景License權(quán)限一致,全系列標配RoCEv2能力,提供PFC、ECN等一系列面向生產(chǎn)環(huán)境的增強網(wǎng)絡特性。
25G-800G豐富的產(chǎn)品規(guī)格,靈活支持單一SKU或混合速率規(guī)格組網(wǎng)方案,規(guī)模可從邊緣推理擴展到萬卡集群;
400ns-560ns超低端到端時延,媲美IB網(wǎng)絡;
兼容UEC規(guī)范,面向未來業(yè)務拓展、技術(shù)升級可進行平滑切換;
......
EasyRoCE Toolkit免費開放
面向AI、智算等場景,星融元依托開源開放的網(wǎng)絡架構(gòu),推出EasyRoCE Toolkit。從前期規(guī)劃實施到日常運維監(jiān)控, EasyRoCE Toolkit 簡化了各環(huán)節(jié)的復雜度并改善了操作體驗,可以說是開箱即用,且具備二次開發(fā)和集成空間。該工具集對星融元簽約用戶完全開放,并常態(tài)化更新,無額外收費。
EasyRoCE Toolkit功能展示:
高精度監(jiān)控工具(Real-time Traffic Reporter, RTR)
EasyRoCE Toolkit下的高精度監(jiān)控工具(Real-time Traffic Reporter, RTR)解決的便是高精度數(shù)據(jù)源的呈現(xiàn)問題。該工具將監(jiān)控面板的設計、采集器的對接等配置工作打包到一個json文件里,用戶將其導入UG平臺后即可生成詳盡的毫秒級監(jiān)控數(shù)。
鏈路地圖(Link Map, LM)
實時呈現(xiàn)所有鏈路的負載情況, 動態(tài)監(jiān)控整網(wǎng)運行狀態(tài)
光模塊地圖(Transceiver Map, TM)
動態(tài)監(jiān)控所有光模塊的運行狀態(tài)(up/down),快速定位故障點
拓撲呈現(xiàn)(Topology Generator, TG)
從邏輯到物理映射,自動呈現(xiàn)拓撲,幫助運維人員快速、精準定位異常
圖形化面板(Device Panel, DP)
以交換機的實際面板布局為基礎(chǔ),圖形化展示設備的運行狀態(tài),通過顏色變化(橙色或紅色)顯著標記設備異常點
參考來源:
https://blog.csdn.net/ITmoster/article/details/131246358
https://www.baidu.com/link?url=p3tUy2J_k4Z1DjPb_Q2LRSn588mPtLndydxc571GcaXFY87LIlBCmWI_KBC5EloWqh1a0B_DCi5Op6wvLkS5ky98NOYnAG6mDr8FqGoe6hfARlU_Sj59QT1wXiTX2vgxHhT6hbv1mgK0puFAq6Tvy8beuFVC6SARsm8tMqKkPb_&wd=&eqid=a24252bd004b9ca70000000667c040bf
https://www.nagios.org/
https://www.zabbix.com/cn
https://prometheus.ac.cn/docs/prometheus/latest/getting_started/
https://solutionsreview.com/network-monitoring/the-13-best-open-source-network-monitoring-tools/
https://blog.csdn.net/qq_29917503/article/details/130340284
https://asterfusion.com/easyroce/
審核編輯 黃宇
-
網(wǎng)絡
+關(guān)注
關(guān)注
14文章
7796瀏覽量
90628 -
網(wǎng)絡監(jiān)控
+關(guān)注
關(guān)注
0文章
115瀏覽量
22037 -
開源
+關(guān)注
關(guān)注
3文章
3645瀏覽量
43672 -
RDMA
+關(guān)注
關(guān)注
0文章
83瀏覽量
9247
發(fā)布評論請先 登錄
RDMA簡介3之四種子協(xié)議對比
RDMA簡介2之A技術(shù)優(yōu)勢分析
RDMA簡介1之RDMA開發(fā)必要性
中科曙光聯(lián)合成立行業(yè)AI智能體開放生態(tài)聯(lián)盟
開放原子開源基金會理事長程曉明一行到訪深開鴻交流,共謀開源鴻蒙生態(tài)繁榮新篇章

對三星而言開放生態(tài)系統(tǒng)是什么
共創(chuàng)開源新未來 軟通動力攜子公司鴻湖萬聯(lián)全方位助陣2024開放原子開源生態(tài)大會成功舉辦

以太網(wǎng)RDMA RoCE的技術(shù)局限

迅龍軟件出席2024開放原子開源生態(tài)大會,共謀開源生態(tài)繁榮之路

2024開放原子開源生態(tài)大會在北京舉行

金壯龍在開放原子開源生態(tài)大會開幕式上的致辭

以生態(tài)共建推動產(chǎn)業(yè)發(fā)展,深開鴻亮相2024開放原子開源生態(tài)大會

評論