InfiniBand(直譯為“無限帶寬”技術(shù),縮寫為IB)是一個(gè)用于高性能計(jì)算的計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),是世界領(lǐng)先的超級(jí)計(jì)算機(jī)的互連首選。基于NVIDIA InfiniBand的端到端網(wǎng)絡(luò)可實(shí)現(xiàn)極低的延遲,以及高數(shù)據(jù)吞吐量和傳輸速率。
InfiniBand網(wǎng)絡(luò)主要用于高性能計(jì)算(HPC)場(chǎng)景,通過高速的InfiniBand技術(shù),將業(yè)務(wù)負(fù)載由單機(jī)運(yùn)行轉(zhuǎn)化為基于多機(jī)協(xié)作的高性能計(jì)算集群。采用了InfiniBand網(wǎng)絡(luò)技術(shù),使得高性能集群的性能得以進(jìn)一步地釋放和優(yōu)化。
作為未來算力的基本單元,高性能的數(shù)據(jù)中心也越來越多地采用InfiniBand網(wǎng)絡(luò)方案,尤其是在超算中心中應(yīng)用最為廣泛。
本文中出現(xiàn)的與NVIDIA產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸NVIDIA Corporation所有。
01
NVIDIA Quantum-2 InfiniBand平臺(tái):400Gb/s NDR InfiniBand網(wǎng)絡(luò)互連
NVIDIA所提供的InfiniBand系列產(chǎn)品主要包括網(wǎng)卡、DPU、交換機(jī)以及LinkX線纜和光模塊,速率從100Gb/s EDR到200Gb/s HDR再到最新的400Gb/s NDR。NVIDIA最新發(fā)布的Quantum-2 InfiniBand平臺(tái)繼續(xù)創(chuàng)造高性能網(wǎng)絡(luò)的更高紀(jì)錄,包括NVIDIA Quantum-2交換機(jī)、ConnectX-7網(wǎng)卡、BlueField-3 DPU、LinkX線纜和光模塊,一同構(gòu)成了面向新一代高性能計(jì)算、人工智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)、云計(jì)算、Web 3.0和存儲(chǔ)平臺(tái)的完整400Gb/s NDR InfiniBand網(wǎng)絡(luò)互連基礎(chǔ)設(shè)施。
NDR InfiniBand憑借其最高的數(shù)據(jù)吞吐量、極低的延遲和智能的網(wǎng)絡(luò)計(jì)算加速引擎,可為要求最苛刻的計(jì)算和數(shù)據(jù)應(yīng)用提供世界領(lǐng)先的性能和可擴(kuò)展性。
NVIDIA Quantum-2 InfiniBand平臺(tái)不但能夠?qū)崿F(xiàn)GPU Direct RDMA對(duì)AI業(yè)務(wù)至關(guān)重要的技術(shù)。其中BlueField-3 DPU增加了DPA 引擎(Data-Path Accelerator)來對(duì)特定流量進(jìn)行編程和加速。ConnectX-7 VPI系列IB網(wǎng)卡對(duì)各種通信模型基于網(wǎng)絡(luò)的計(jì)算進(jìn)行了專門優(yōu)化,提高了All reduce 和 All-to-All等通信時(shí)的通信效率。憑借單端口每秒400Gbps的高吞吐量,NVIDIA Quantum-2 InfiniBand將端口速率提高一倍,網(wǎng)絡(luò)物理端口數(shù)量增加1.5倍。Quantum-2平臺(tái)的系統(tǒng)容量提升至上代產(chǎn)品的5倍,支持的數(shù)據(jù)中心的規(guī)模提升了6.5倍,而數(shù)據(jù)中心網(wǎng)絡(luò)的能耗則降低了36%。
NVIDIA Quantum-2的盒式交換機(jī),芯片采用7nm工藝,包含570億個(gè)晶體管,配有64個(gè)400Gbps端口,通過Split線纜以提供多達(dá)128個(gè)200Gbps端口。交換機(jī)的雙向總吞吐量為51.2Tb/s,具有超過每秒665億數(shù)據(jù)包的標(biāo)志性包轉(zhuǎn)發(fā)能力。同時(shí),Quantum-2平臺(tái)提供不同端口數(shù)的模塊化交換機(jī)系統(tǒng),可以支持多達(dá)2048個(gè),系統(tǒng)容量超出上一代5倍。基于NVIDIA Quantum-2交換機(jī)ASIC的盒式交換機(jī)和模塊化交換機(jī)系統(tǒng)提供了全面的InfiniBand交換互連接解決方案,支持各種InfiniBand網(wǎng)絡(luò)拓?fù)洌‵at Tree、DragonFly+、多維 Torus等。
NVIDIA Quantum-2平臺(tái)在主機(jī)端提供兩個(gè)網(wǎng)絡(luò)選項(xiàng),ConnectX-7網(wǎng)卡和BlueField-3 DPU。ConnectX-7基于7nm工藝,包含80億個(gè)晶體管,其數(shù)據(jù)傳輸速率是上一代的兩倍,通過RDMA、GPU Direct Storage、GPU Direct RDMA和網(wǎng)絡(luò)計(jì)算加速應(yīng)用,充分發(fā)揮網(wǎng)絡(luò)的能力。BlueField-3采用7nm工藝,包含220億個(gè)晶體管,提供16個(gè)64位ARM CPU,基于數(shù)據(jù)IO的業(yè)務(wù)部署,提供加速、卸載和隔離的能力,優(yōu)化了數(shù)據(jù)中心基礎(chǔ)設(shè)施的架構(gòu)。
為了打造完整的端到端400Gb/s InfiniBand 基礎(chǔ)架構(gòu),NVIDIA Quantum-2還提供了LinkX解決方案,為用戶提供一系列不同類型的400Gb/s DAC線纜(高速銅纜)、AOC線纜(有源光纜)以及光模塊產(chǎn)品,以構(gòu)建復(fù)雜的基礎(chǔ)設(shè)施,可以為選擇的拓?fù)浣Y(jié)構(gòu)提供最大的靈活性,針對(duì)不同的連接場(chǎng)景,提供全套的線纜模塊方案。
NVIDIA LinkX擁有完善的產(chǎn)品體系,可提供不同的方案組合(光模塊、DAC/AOC直連以及分支高速線纜),速率包括EDR(100G)、HDR(200G)和NDR(400G),外形尺寸涵蓋QSFP28、QSFP56以及OSFP。
LinkX產(chǎn)品在NVIDIA“端到端”網(wǎng)絡(luò)系統(tǒng)中發(fā)揮了最佳的效果和獨(dú)特的功能,除了滿足InfiniBand貿(mào)易協(xié)會(huì) (IBTA) 標(biāo)準(zhǔn)外,LinkX產(chǎn)品在出廠之前完成了100% 真實(shí)業(yè)務(wù)測(cè)試,確保線纜模塊的品質(zhì),從底層支持InfiniBand網(wǎng)絡(luò)實(shí)現(xiàn)高性能。NVIDIA LinkX產(chǎn)品的低誤碼率、低延時(shí)、低功耗和高可靠性等特點(diǎn)可以與NVIDIA交換機(jī)和網(wǎng)卡產(chǎn)品完美適配,在具有嚴(yán)格要求的超級(jí)計(jì)算機(jī)和超大規(guī)模系統(tǒng)中提供了最優(yōu)的傳輸效率。
02
構(gòu)建InfiniBand網(wǎng)絡(luò)出現(xiàn)的常見問題
目前市面上有部分客戶在構(gòu)建InfiniBand網(wǎng)絡(luò)時(shí)使用了第三方的光模塊、高速線纜等連接件產(chǎn)品,然而卻在實(shí)際應(yīng)用中出現(xiàn)了大量的問題,主要表現(xiàn)為:
1、網(wǎng)絡(luò)鏈路不穩(wěn)定:出現(xiàn)鏈路震蕩現(xiàn)象
2、傳輸延時(shí)高:在推理、訓(xùn)練等業(yè)務(wù)負(fù)載下,大大延長(zhǎng)訓(xùn)練周期
3、功耗高:產(chǎn)品發(fā)熱異常,嚴(yán)重時(shí)甚至可能損壞設(shè)備
4、產(chǎn)品質(zhì)量良莠不齊:經(jīng)常出現(xiàn)大批量無法使用的情況
納多德NADDOD——作為NVIDIA網(wǎng)絡(luò)產(chǎn)品Elite Partner (精英級(jí)別合作伙伴),致力于為客戶提供高品質(zhì)高性能光網(wǎng)絡(luò)解決方案,在為客戶搭建高性能網(wǎng)絡(luò)方案的過程中,收到不少因使用第三方InfiniBand連接件而出現(xiàn)售后問題的反饋,導(dǎo)致用戶網(wǎng)絡(luò)延遲甚至中斷,額外增加了客戶處理售后問題所花費(fèi)的時(shí)間成本。
結(jié)合大量真實(shí)案例中出現(xiàn)的情況,納多德NADDOD建議在InfiniBand網(wǎng)絡(luò)中使用的連接件(DAC/AOC線纜、光模塊),一定要選用NVIDIA LinkX原廠線纜,以最大程度地保證連接件與設(shè)備之間的適配性,以及保障網(wǎng)絡(luò)的穩(wěn)定傳輸與高可靠性。
審核編輯 黃昊宇
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5282瀏覽量
106067 -
InfiniBand
+關(guān)注
關(guān)注
1文章
31瀏覽量
9367 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3933瀏覽量
93369
發(fā)布評(píng)論請(qǐng)先 登錄
借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造
廣州郵科通信電源系統(tǒng):賦能現(xiàn)代通信網(wǎng)絡(luò)的穩(wěn)定動(dòng)力
NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)
山澤HDMI 2.1:穩(wěn)定可靠的高性能傳輸解決方案
PoE交換機(jī)如何助力智慧城市基礎(chǔ)設(shè)施建設(shè)?
支持PCIe5.0,杰和科技B760主板IB5-8131亮點(diǎn)都在這

MX2412H高速復(fù)用器芯片的應(yīng)用EUVIS
基于 400Gbps 100G-PAM4 OSFP 和 QSFP112 的線纜和光模塊之IB網(wǎng)絡(luò)連接

RS232接口數(shù)據(jù)傳輸穩(wěn)定性
華為路由BE7系列助力網(wǎng)絡(luò)穩(wěn)定覆蓋

工業(yè)交換機(jī)如何增強(qiáng)網(wǎng)絡(luò)連接的可靠性

簡(jiǎn)單認(rèn)識(shí)NVIDIA網(wǎng)絡(luò)平臺(tái)
IB Verbs和NVIDIA DOCA GPUNetIO性能測(cè)試

基于100G-PAM4技術(shù)的LinkX 線纜

GPS校時(shí)器 NTP網(wǎng)絡(luò)校時(shí)服務(wù)器 助力高速收費(fèi)-安徽京準(zhǔn)

評(píng)論