為了高效應(yīng)對(duì) AI 工作負(fù)載,數(shù)據(jù)中心正在被重構(gòu)。這是一項(xiàng)非常復(fù)雜的工作,因此,NVIDIA 目前正在交付以 NVIDIA 機(jī)架級(jí)架構(gòu)為單位的 AI 工廠。為了讓 AI 工廠發(fā)揮最佳性能,許多加速器需要以更大的帶寬和更低的延遲在機(jī)架規(guī)模上協(xié)同工作,并以最節(jié)能的方式支持盡可能多的用戶。
設(shè)計(jì)滿足這些需求的機(jī)架會(huì)面臨許多技術(shù)挑戰(zhàn)。這需要高密度的加速器、網(wǎng)卡(NICs)、交換機(jī)以及縱向擴(kuò)展和橫向擴(kuò)展網(wǎng)絡(luò),所有這些都緊密相關(guān)。這種高密配置對(duì)于提供當(dāng)今 AI 所需的高級(jí)計(jì)算能力和背板帶寬至關(guān)重要。
傳統(tǒng)的風(fēng)冷方法通常不足以滿足此類高密部署的需求,因此需要高密度液冷機(jī)架,例如NVIDIA NVLink高速縱向擴(kuò)展互連技術(shù)。圖說明了 NVLink 和更大的縱向擴(kuò)展域如何提供最佳性能。NVIDIA 機(jī)架式擴(kuò)展解決方案提供了一條經(jīng)過驗(yàn)證的可擴(kuò)展路徑,通向更快速、更高效的基礎(chǔ)設(shè)施。
NVIDIA AI 工廠生態(tài)系統(tǒng)
NVIDIA 為 AI 工廠建立了成熟的生態(tài)系統(tǒng)。其中包括先進(jìn) GPU 技術(shù)和用于縱向擴(kuò)展計(jì)算網(wǎng)的 NVIDIA NVLink。NVIDIA NVLink Switch 芯片可在 72 個(gè) GPU的 NVLink 域中實(shí)現(xiàn) 130 TB/s 的 GPU 帶寬。NVIDIA Quantum-X800 InfiniBand、NVIDIA Spectrum-X Ethernet 和 NVIDIA Bluefield-3 DPU 支持?jǐn)U展到數(shù)十萬個(gè) GPU。
此外,與領(lǐng)先的傳統(tǒng) CPU 相比,NVIDIA Grace 等高性能 CPU 可提供高達(dá) 2 倍的能效,并在低功耗的情況下提供驚人的帶寬。這種機(jī)架級(jí)架構(gòu)在廣大的 OEM 和 ODM 合作伙伴網(wǎng)絡(luò)的支持下,已經(jīng)部署到各大云提供商,奠定了現(xiàn)代 AI 工廠的基礎(chǔ)。
面向半定制 AI 基礎(chǔ)架構(gòu)的 NVIDIA NVLink Fusion
新推出的NVIDIA NVLink Fusion是一種面向芯片的技術(shù),可讓超大規(guī)模企業(yè)利用 NVIDIA NVLink 生態(tài)系統(tǒng)構(gòu)建半定制 AI 基礎(chǔ)設(shè)施。
NVLink Fusion 使用戶能夠半定制 ASIC 或 CPU,從而實(shí)現(xiàn)出色的性能擴(kuò)展。那些超大規(guī)模企業(yè)可以直接用到 NVLink、NVIDIA NVLink-C2C 、NVIDIA Grace CPU、NVIDIA GPU、NVIDIA CPO 網(wǎng)絡(luò)、機(jī)架擴(kuò)展架構(gòu)和 NVIDIA Mission Control 軟件的創(chuàng)新成果。
由于超大規(guī)模企業(yè)已經(jīng)在部署完整的 NVIDIA 機(jī)架級(jí)解決方案,這使他們能夠在 AI 工廠中提供異構(gòu)芯片產(chǎn)品,同時(shí)在單一可擴(kuò)展的硬件基礎(chǔ)設(shè)施上實(shí)現(xiàn)標(biāo)準(zhǔn)化。憑借 NVIDIA 豐富的基礎(chǔ)設(shè)施合作伙伴生態(tài)系統(tǒng),NVLink Fusion 使用者可輕松進(jìn)行大規(guī)模部署和管理。
NVIDIA NVLink 縱向擴(kuò)展互連
NVLink Fusion 的核心是突破性互連技術(shù) NVLink。為了充分發(fā)揮大規(guī)模 AI 模型的潛力,機(jī)架內(nèi)每個(gè) GPU 之間的無縫通信至關(guān)重要。第 5 代 NVLink 可為每個(gè) GPU 提供 1.8 TB/s 的雙向帶寬,是 PCIe Gen5 帶寬的 14 倍,可在非常復(fù)雜的大型模型中實(shí)現(xiàn)無縫高速通信。它還通過面向集合通信的網(wǎng)絡(luò)計(jì)算技術(shù)提高了吞吐量并降低了延遲。NVLink 帶寬每擴(kuò)展 2 倍,即可將機(jī)架級(jí) AI 性能提升 1.3-1.4 倍。
半定制 AI 基礎(chǔ)架構(gòu)的行業(yè)應(yīng)用
NVLink Fusion 使超大規(guī)模企業(yè)能夠?qū)⑵浒攵ㄖ?ASIC 無縫集成到高度優(yōu)化和廣泛部署的數(shù)據(jù)中心架構(gòu)中。NVLink Fusion 包含 NVLink 芯片,可通過相同的 NVIDIA 機(jī)架級(jí)擴(kuò)展架構(gòu)來縱向擴(kuò)展 NVIDIA 和半定制 ASIC 的混合基礎(chǔ)設(shè)施,并與 NVIDIA CPU、NVIDIA NVLink 交換機(jī)、NVIDIA ConnectX Ethernet SuperNIC、NVIDIA BlueField DPU 以及用于橫向擴(kuò)展解決方案的 NVIDIA Quantum 和 NVIDIA Spectrum-X 交換機(jī)搭配使用。領(lǐng)先的超大規(guī)模企業(yè)已經(jīng)在部署 NVIDIA NVLink 全機(jī)架解決方案,并且通過使用 NVLink Fusion 在同一機(jī)架架構(gòu)上實(shí)現(xiàn)異構(gòu)芯片數(shù)據(jù)中心的標(biāo)準(zhǔn)化,從而加快產(chǎn)品上市時(shí)間。
NVLink Fusion 技術(shù)還為 AI 創(chuàng)新者開辟了另一種集成途徑,即通過 NVIDIA NVLink-C2C 技術(shù)將半定制 CPU 連接到 NVIDIA GPU。合作伙伴可以將其先進(jìn)的 CPU 技術(shù)與 NVIDIA GPU 相結(jié)合,實(shí)現(xiàn)內(nèi)存一致性,從而提供 NVIDIA 全棧 AI 基礎(chǔ)架構(gòu)產(chǎn)品。NVIDIA NVLink-C2C 最初應(yīng)用于 NVIDIA Grace Hopper 和 NVIDIA Grace CPU 超級(jí)芯片,可提供 900 GB/s 的一致性互連帶寬。
圖顯示了不同的 NVLink Fusion 組合選項(xiàng)。
圖 :NVLink Fusion 機(jī)架部署示例
專為 AI 工廠打造的軟件
通過 NVLink Fusion 連接的 AI 工廠可以由 Mission Control 提供支持,這是一個(gè)統(tǒng)一的運(yùn)營(yíng)和編排軟件平臺(tái),可自動(dòng)執(zhí)行 AI 數(shù)據(jù)中心和工作負(fù)載的復(fù)雜管理。
從配置部署到驗(yàn)證基礎(chǔ)設(shè)施,再到編排任務(wù)關(guān)鍵型工作負(fù)載,Mission Control 可增強(qiáng) AI 工廠運(yùn)營(yíng),幫助企業(yè)更快地啟動(dòng)和運(yùn)行前沿模型
NVLink Fusion 合作伙伴生態(tài)系統(tǒng)
NVIDIA 生態(tài)系統(tǒng)涵蓋定制芯片設(shè)計(jì)師、CPU、IP 和 OEM/ODM 合作伙伴,提供通過 NVIDIA 來大規(guī)模部署定制芯片的完整解決方案。借助 NVLink Fusion,他們可以與 NVIDIA 合作伙伴生態(tài)系統(tǒng)合作,將 NVIDIA 機(jī)架級(jí)解決方案部署集成到數(shù)據(jù)中心基礎(chǔ)設(shè)施中。高性能 AI 工廠可以快速縱向擴(kuò)展,以滿足模型訓(xùn)練和代理式 AI 推理等嚴(yán)苛工作負(fù)載的需求。
面向 AI 的加速網(wǎng)絡(luò)平臺(tái)
NVIDIA Quantum-X800 InfiniBand 平臺(tái)、NVIDIA Spectrum-X Ethernet 網(wǎng)絡(luò)平臺(tái)、NVIDIA Bluefield-3 DPU 和 NVIDIA Connect-X SuperNIC 可以為大規(guī)模 AI 數(shù)據(jù)中心提供可擴(kuò)展的性能、效率和安全性。
NVLink Fusion 可為系統(tǒng)中的每個(gè) GPU 提供 800 Gb/s 的總數(shù)據(jù)吞吐量,并與 Quantum-X800 和 Spectrum-X 平臺(tái)無縫集成,使 AI 工廠和云數(shù)據(jù)中心能夠在沒有瓶頸的情況下處理萬億參數(shù)模型。
NVIDIA 光電一體化(CPO)交換機(jī)是 NVIDIA Quantum-X 和 Spectrum-X 平臺(tái)的一部分,通過集成硅光技術(shù)取代了可插拔光模塊,與傳統(tǒng)網(wǎng)絡(luò)相比,其能效提高了 3.5 倍 ,網(wǎng)絡(luò)可靠性提高了 10 倍,信號(hào)完整性提高了 63 倍,部署時(shí)間縮短了 1.3 倍。
NVIDIA 的 CPO 網(wǎng)絡(luò)簡(jiǎn)化了管理和設(shè)計(jì),為計(jì)算基礎(chǔ)設(shè)施提供更強(qiáng)大的功能。這些優(yōu)勢(shì)對(duì)于邁向未來百萬級(jí) GPU 的 AI 工廠至關(guān)重要。
BlueField-3 DPU 擴(kuò)展到整個(gè)數(shù)據(jù)中心,可加速 GPU 對(duì)數(shù)據(jù)的訪問、保障云上多租戶的安全和高效的數(shù)據(jù)中心運(yùn)營(yíng)。NVIDIA GB300 NVL72 架構(gòu)率先在 GPU 和 ConnectX-8 SuperNIC 之間引入 PCIe Gen6 連接,無需獨(dú)立的 PCIe 交換機(jī)接口。新的 I/O 模塊將在同一設(shè)備上配備兩個(gè) ConnectX-8 芯片,為系統(tǒng)中的每個(gè) GPU 提供全速的 800 Gb/s 網(wǎng)絡(luò)連接。
總結(jié)
AI 變革所需的基礎(chǔ)設(shè)施不但強(qiáng)大,還要敏捷、可擴(kuò)展且高效。僅靠添加更多的獨(dú)立服務(wù)器或組件已不再可行。未來依賴于深度集成的機(jī)架級(jí)解決方案,使海量計(jì)算資源能夠作為一個(gè)統(tǒng)一的整體運(yùn)行。NVIDIA 的 NVLink 技術(shù)一直在其 GPU 平臺(tái)上處于縱向擴(kuò)展架構(gòu)的前沿。現(xiàn)在,借助 NVLink Fusion,NVIDIA 將這種經(jīng)過驗(yàn)證的出色性能擴(kuò)展能力應(yīng)用到半定制芯片領(lǐng)域。
-
cpu
+關(guān)注
關(guān)注
68文章
11040瀏覽量
216042 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5246瀏覽量
105791 -
AI
+關(guān)注
關(guān)注
87文章
34294瀏覽量
275476 -
計(jì)算平臺(tái)
+關(guān)注
關(guān)注
0文章
73瀏覽量
9794
原文標(biāo)題:借助 NVIDIA NVLink Fusion 將半定制計(jì)算平臺(tái)集成到機(jī)架級(jí)架構(gòu)
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA特供芯片B30曝光,沒有HBM,沒有NVLink
借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造
NVIDIA推出NVLink Fusion技術(shù)
英偉達(dá)臺(tái)北設(shè)辦事處!開放NVLink生態(tài),800GB桌面超算面世

評(píng)論