生成式 AI、大語言模型和高性能計算呈指數級增長,這對數據中心基礎設施提出了前所未有的要求。傳統服務器架構難以滿足現代加速計算在功率密度、散熱需求和快速迭代周期方面的要求。
本文介紹了NVIDIA MGX的優勢,這是一種用于加速計算的模塊化參考架構,它正在重新定義企業和云服務提供商構建可擴展 AI 工廠的方式。
為何模塊化架構如今至關重要?
借助 NVIDIA MGX,合作伙伴可以像搭積木那樣設計多種系統,從而節省開發成本并縮短產品上市時間。NVIDIA MGX 支持多代產品以及數百種 GPU、DPU、CPU、存儲和網絡的組合方案,適用于 AI、HPC 和數字孿生等領域。
當前推動 NVIDIA MGX 廣泛應用的三大趨勢包括:
功率密度與散熱:現代 AI 計算的高要求促使功率密度不斷提高,并推動液冷基礎設施越來越普及。例如,NVIDIA Blackwell GPU 需要單機架功率最高可達 120 千瓦的全機架級解決方案,來滿足由此產生的多項技術要求。MGX 通過液冷匯流排和歧管來滿足這些需求,即使在 1400A 的負載下仍能將冷卻液溫差控制在 15°C 以內,從而能夠在不影響性能或可靠性的情況下實現高密度的機架級部署。
異構工作負載支持:企業需要在同一數據中心內管理日益多樣化的工作負載,包括使用 72-GPU NVIDIA GB200 NVL72 集群的 AI 后訓練、需要測試時擴展的推理任務以及數字孿生模擬。MGX 的模塊化混搭兼容性使企業能夠針對特定工作負載定制基礎設施,而且無需重新設計整個機架。
供應鏈敏捷性:MGX 支持在工廠內預集成約 80% 的組件,包括匯流排、冷板和電源線束。這簡化了構建過程,使 ODM 廠商能夠將部署周期從 12 個月縮短到 90 天以內。
基于這些趨勢,像 MGX 這樣標準化且穩定的架構能夠確保可靠、兼容的服務器部署,使之在不犧牲互操作性的前提下,滿足不斷發展的性能需求。這種穩定性對企業實現基礎設施投資的前瞻性布局至關重要,同時還保留了適應新興工作負載和技術的靈活性。
龐大的 MGX 生態系統讓企業可以靈活地選購多樣化的組件并避免供應商鎖定,這能夠最大限度地降低投資風險、縮短交貨時間并減少不確定性。由于合作伙伴能夠自由地在廣泛的認證組件中進行選擇,MGX 使組織在優化其數據中心構建時能夠降低成本、提高性能和供應鏈彈性。
基于標準的模塊化 MGX 設計簡化了集成過程,消除了對定制解決方案的需求,從而實現了快速、成本可控的部署和更具靈活性的擴展。這種方法不僅加快了上市時間,還簡化了后續維護和升級,使企業能夠根據需求增長和技術發展情況高效地擴展 AI 工廠。
MGX 機架系統內部構造
NVIDIA MGX 機架系統圍繞兩大核心模塊構建:計算托盤和 NVLink 交換機托盤。每個計算托盤都配備了強大的 CPU 和 GPU 組合,例如 NVIDIA Grace CPU 與 NVIDIA Blackwell GPU 的搭配。它們為 AI 訓練、推理和模擬工作負載提供核心加速計算性能。NVLink 交換機托盤則提供高速、低延遲的互連結構,將這些計算托盤連接在一起,實現 GPU 到 GPU 的無縫通信和整個機架的高效擴展。
然而,完整的 MGX 機架系統還遠不止計算和交換機托盤。為了滿足現代 AI 工廠對規模和效率的運行要求,該系統還依賴強大的機械、電氣和管道(冷卻)基礎設施,包括:
機械組件:模塊化 MGX 機架本身為高密度數據中心部署提供了所需的結構完整性和可維護性。電源架支架將電源架固定在機架內,而滑軌則便于機架式設備的安裝和維護。
電氣組件:在電力輸送與連接方面,MGX 54V 匯流排和 MGX 1400A 匯流排在整個機架內高效地分配電力,支持 HPC 負載。33 kW 電源架為系統提供充足的電力,而 MGX 電源線束可以靈活地連接電源架和匯流排。MGX 高速電纜保障高速數據傳輸,確保計算托盤和交換機托盤之間保持最優的通信。
管道或冷卻組件:MGX 冷板為 GPU 提供高效液冷,維持其最佳運行溫度。MGX 44RU 歧管用于管理機架內的冷卻液分配。MGX NVQD(NVIDIA 快換接頭)和 MGX UQD(通用快換接頭)等快換接頭實現液冷管線的快速安全連接,簡化維護并最大限度地減少停機時間。
這種模塊化方法可以顯著節省時間,因為標準組件可以在工廠預安裝,并通過即插即用的電源和冷卻裝置在現場集成。
NVIDIA GB200 NVL72 和 GB300 NVL72 系統中的 MGX 組件是基礎架構,用于管理功率密度和熱負載,使這些液冷機架級平臺能夠提供前所未有的 AI 性能。通過將先進的液冷 MGX 架構集成到 Blackwell 計算節點中,NVIDIA 滿足了 GB200 NVL72 的單機架 120 千瓦的能耗需求,而 GB300 NVL72 的 72 個 Blackwell Ultra GPU 則需要更高的散熱協調能力,以實現其高達 50 倍的 AI 推理輸出提升。
這種設計理念需要機械工程團隊(優化冷卻液分配)、電源專家(高效電壓調節)與制造合作伙伴(實現前端可維護性)之間的緊密協作。所有這些都通過 NVIDIA 的芯片級 NVLink 互連技術統一起來,該技術將 36 個 Grace CPU 和 72-144 個 GPU 綁定到一個統一的計算域中。這種聯合設計的解決方案比前代 NVIDIA Hopper 集群的能效提升了 25 倍,展現了 MGX 的系統集成如何將原始算力轉化為可擴展的 AI 基礎設施。
變革 AI 工廠的設計與部署
NVIDIA MGX 為整個數據中心生態系統帶來了切實的好處。
對于系統制造商來說,通過共享參考設計,MGX 使每個平臺的研發成本降低了 200 萬至 400 萬美元,并使團隊能夠一次性認證整個 NVIDIA 軟件棧,其中包括 NVIDIA CUDA-X、NVIDIA AI Enterprise 和 NVIDIA Omniverse。
對于數據中心運營商來說,能夠使用一致的電源和冷卻接口,實現從 8-GPU 節點無縫擴展到 144-GPU 機架,同時由于電源效率高達 94% 且冷卻管道系統可重復使用,總體擁有成本降低了 50%。
對于 AI 工作負載來說,MGX 使各組織能夠利用 NVLink 交換機在 72-GPU 的統一的計算域上訓練參數量高達 1.8 萬億的模型,并在 72 節點機架上部署延遲波動小于 5 毫秒的推理集群。
開始使用
NVIDIA MGX 不僅僅是一項機架標準,更是 AI 工廠時代的基礎。隨著 200 多家生態系統合作伙伴已采用 MGX 組件,企業由此獲得了通往未來 exascale 級 AI 的路徑。隨著 NVIDIA Blackwell、NVIDIA Rubin 等不斷突破計算邊界,MGX 模塊化架構確保了 AI 工廠能夠隨著芯片創新的不斷發展,并通過模塊化升級路徑來保護數據中心投資。
-
NVIDIA
+關注
關注
14文章
5246瀏覽量
105793 -
交換機
+關注
關注
21文章
2725瀏覽量
101401 -
數據中心
+關注
關注
16文章
5146瀏覽量
73219 -
AI
+關注
關注
87文章
34294瀏覽量
275480
原文標題:NVIDIA MGX 為 AI 工廠奠定堅實的模塊化基礎
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論