面向 AI 基礎設施的液冷技術提升了數(shù)據(jù)中心和 AI 工廠的能效。
傳統(tǒng)上,數(shù)據(jù)中心依賴風冷,也就是通過冷水機組循環(huán)輸送冷空氣來吸收服務器所產(chǎn)生的熱量,以使服務器保持最佳運行狀態(tài)。但隨著 AI 模型的規(guī)模增加以及 AI 推理模型使用越來越廣泛,保持最佳運行狀態(tài)不僅面臨更多困難、成本更昂貴,而且能耗也更大。
在數(shù)據(jù)中心內(nèi),每個機架的功率曾經(jīng)只有 20 千瓦,而在如今的超大規(guī)模設施內(nèi),每個機架的功率超過 135 千瓦。在這種情況下,高密度機架散熱的難度增加了一個量級。為了讓 AI 服務器保持峰值性能,就需要一種全新的散熱方法來提高能效和可擴展性。
液冷技術是其中一個關鍵解決方案。通過減少對冷水機組的依賴并實現(xiàn)更高效的散熱,液冷技術正推動下一代高性能、高能效 AI 基礎設施的發(fā)展。
NVIDIA Grace Blackwell 機架式解決方案和 NVIDIA Grace Blackwell Ultra 機架式解決方案是機架級液冷系統(tǒng),專為要求嚴苛的任務而設計,比如處理具有數(shù)萬億參數(shù)的大語言模型推理。它們的架構還針對測試時擴展的精度和性能進行了專門優(yōu)化,使其成為運行 AI 推理模型的理想選擇,同時還能有效地管理能源成本和散熱問題。
推動 AI 數(shù)據(jù)中心實現(xiàn)前所未有的用水效率提升和成本節(jié)約
過去,僅散熱冷卻一項就占數(shù)據(jù)中心用電量的 40%,這使其成為了提高能效、降低運營成本和能源需求的關鍵因素之一。
液冷技術通過直接在熱源處吸收熱量,有助于降低成本和能耗。直接芯片(direct-to-chip)的液冷技術不再依賴空氣作為散熱媒介,而是通過技術冷卻系統(tǒng)回路傳遞熱量。這些熱量隨后通過液對液熱交換的液冷式換熱器而循環(huán)到冷卻液分配單元,最終轉移到設施冷卻回路中。由于這種熱傳遞的效率更高,數(shù)據(jù)中心和 AI 工廠可以在水溫更高的情況下有效地運行,從而在許多氣候條件下可以減少甚至無需使用機械冷水機組。
NVIDIA Grace Blackwell 機架式解決方案機架級液冷系統(tǒng)基于 NVIDIA Blackwell 平臺構建,在平衡能源成本和散熱的同時,可提供卓越的性能。它將每個服務器機架的計算密度提升到了前所未有的高度,與傳統(tǒng)風冷架構相比,其營收潛力提高了 40 倍,吞吐量提高了 30 倍,能效提高了 25 倍,用水效率提高了 300 倍。對于基于 NVIDIA Blackwell Ultra 平臺構建的 NVIDIA Grace Blackwell Ultra 機架式解決方案,其營收潛力更是提高了 50 倍,吞吐量提高了 35 倍,能效提高了 30 倍。
據(jù) CBRE 的一份報告,數(shù)據(jù)中心的年度支出大約為每兆瓦 190 萬至 280 萬美元,其中近 50 萬美元用于散熱相關的能源和水資源成本。通過部署液冷 NVIDIA Grace Blackwell 機架式解決方案,超大規(guī)模數(shù)據(jù)中心和 AI 工廠的成本可降至傳統(tǒng)方案的 1/25。對于一個 50 兆瓦的超大規(guī)模數(shù)據(jù)中心來說,每年可節(jié)約超過 400 萬美元。
對于數(shù)據(jù)中心和 AI 工廠運營商而言,這意味著更低的運營成本、更高的能效指標,以及面向未來的基礎設施,從而能夠高效地擴展 AI 工作負載,同時避免傳統(tǒng)散熱方法不可持續(xù)的水資源消耗問題。
將熱量排出數(shù)據(jù)中心
隨著計算密度上升以及 AI 工作負載產(chǎn)生前所未有的熱量負荷,數(shù)據(jù)中心和 AI 工廠必須重新思考如何從基礎設施中排出熱量。傳統(tǒng)散熱方法適用于可預測的 CPU 擴展方案,但已經(jīng)無法獨立地滿足這種需求。如今,已有多種方法可以將熱量排出設施,但當前和新興的部署方案主要采用了以下四大類方法。
主要散熱方法
機械冷水機組:機械冷水機組利用蒸汽壓縮循環(huán)來冷卻水,然后將冷卻后的水在數(shù)據(jù)中心內(nèi)循環(huán)以吸收熱量。這些系統(tǒng)通常采用風冷或水冷方式,而水冷系統(tǒng)常與冷卻塔配合使用來散熱。雖然冷水機組在各種氣候條件下都可靠且有效,但其能耗極高。在極為重視能耗和可持續(xù)性的 AI 設施中,采用冷水機組會顯著影響運營成本和碳排放量。
蒸發(fā)冷卻:蒸發(fā)冷卻利用水的蒸發(fā)來吸收和排出熱量,可通過直接、間接或混合系統(tǒng)實現(xiàn)。此類系統(tǒng)的能效遠高于冷水機組,但耗水量大。在大型設施中,這些系統(tǒng)每年的每兆瓦用水量可能達到數(shù)百萬加侖。而且,其性能受氣候影響,在潮濕或水資源有限的地區(qū)效果較差。
干式冷卻器:干式冷卻器利用大型翅片管將封閉液體回路中的熱量散發(fā)到周圍空氣中(類似于汽車散熱器)。這些系統(tǒng)不依賴水,非常適合希望減少用水量或在干燥氣候下運行的設施。然而,其效果在很大程度上取決于周圍空氣的溫度。在較熱的環(huán)境中,除非與能夠承受更高運行溫度的液冷 IT 系統(tǒng)配合使用,否則干式冷卻器可能難以滿足高密度冷卻需求。
泵送制冷劑系統(tǒng):泵送制冷劑系統(tǒng)使用液體制冷劑將數(shù)據(jù)中心產(chǎn)生的熱量轉移到室外熱交換器。與冷水機組不同,這些系統(tǒng)無需在設施內(nèi)部署大型壓縮機,且運行過程中不消耗水。這種方法提供了一種熱力學效率高、緊湊且可擴展的解決方案,尤其適用于邊緣部署和水資源有限的環(huán)境。雖然需要妥善處理和監(jiān)測制冷劑,但其在節(jié)能節(jié)水方面優(yōu)勢顯著。
這些方法各有優(yōu)勢,選擇時需考慮氣候、機架密度、設施設計和可持續(xù)發(fā)展目標等因素。隨著液冷技術的普及以及服務器設計能夠適應更高水溫,更高效、更環(huán)保的冷卻方案將逐漸變得可行,即在提升計算性能的同時還能降低能耗和用水量。
優(yōu)化面向 AI 基礎設施的數(shù)據(jù)中心
隨著 AI 工作負載呈指數(shù)級增長,運營商們正在重新設計數(shù)據(jù)中心,構建專為高性能 AI 和能效打造的基礎設施。無論是將整個設施轉變?yōu)閷S?AI 工廠,還是升級模塊化組件,優(yōu)化推理性能對于控制成本和提高運營效率來說都至關重要。
為了實現(xiàn)最佳性能,僅配備高算力 GPU 是不夠的,這些 GPU 還需要能夠極速地相互通信。
NVIDIA NVLink 增強了 GPU 之間的通信,使它們能夠作為一個緊密集成的大規(guī)模處理單元運行,在 120 千瓦的全機架功率密度下實現(xiàn)最高性能。這種緊密的高速通信對今天的 AI 任務至關重要,因為數(shù)據(jù)傳輸每節(jié)省一秒都意味著更高的每秒 token 量和更高效的 AI 模型。
傳統(tǒng)風冷方案難以應對如此高的功率。為了滿足散熱需求,數(shù)據(jù)中心的空氣需要冷卻至冰點以下或以接近暴風的速度流動才能帶走熱量,這使得僅靠空氣來冷卻高密度機架變得越來越不切實際。
液冷的密度幾乎是風冷的 1000 倍,而且擁有卓越的熱容和熱導率,這使得液冷在散熱方面表現(xiàn)出色。通過有效地帶走高性能 GPU 產(chǎn)生的熱量,液冷減少了對噪音大、能耗高的冷卻風扇的依賴,從而可將更多電力用于計算,而非散熱。
液冷技術的實際應用
整個行業(yè)的創(chuàng)新者都正在利用液冷技術降低能源成本、提高密度并提升 AI 能效:
Vertiv 針對 NVIDIA Grace Blackwell 機架式解決方案服務器設計的參考架構每年可降低 25% 的能耗,減少 75% 的機架空間需求,并降低 30% 的用電量。
施耐德電氣的液冷基礎設施支持的功率達到每個機架 132 千瓦,提高了 NVIDIA Grace Blackwell 機架式解決方案 AI 數(shù)據(jù)中心的能效、可擴展性和整體性能。
CoolIT Systems 的高密度 CHx2000 液對液冷卻液分配單元在接近 5°C 的溫度下提供 2 兆瓦的冷卻能力,確保 NVIDIA Grace Blackwell Ultra 機架式解決方案部署實現(xiàn)可靠的散熱管理。此外,其采用專利分流技術的 OMNI 全金屬冷板可實現(xiàn)超過 4000 瓦熱設計功率的精準冷卻,同時降低壓降。
Boyd 先進的液冷解決方案融合了該公司在 HPC 行業(yè) 20 多年的經(jīng)驗,包含冷卻液分配單元、液冷回路和冷板,進一步提高了高密度 AI 工作負載的能效和系統(tǒng)可靠性。
云服務提供商也正在積極地采用最先進的冷卻和電力創(chuàng)新技術。下一代 AWS 數(shù)據(jù)中心采用聯(lián)合開發(fā)的液冷解決方案,在保持用水效率的同時,其算力提高了 12%,能耗最多降低至原來的 46%。
為未來的 AI 基礎設施散熱
隨著 AI 不斷突破計算規(guī)模的極限,冷卻技術的創(chuàng)新對于應對后摩爾定律時代的熱管理挑戰(zhàn)至關重要。
通過 COOLERCHIPS 等項目,NVIDIA 正在引領這場變革。COOLERCHIPS 項目致力于開發(fā)配備下一代散熱系統(tǒng)的模塊化數(shù)據(jù)中心,與傳統(tǒng)風冷設計相比,其成本預計至少降低 5%,能效提高 20%。
展望未來,數(shù)據(jù)中心必須以可持續(xù)的方式滿足 AI 不斷增長的需求,在最大限度地提高能源和用水效率的同時,盡可能減少對環(huán)境的影響。通過采用高密度架構和先進的液冷技術,行業(yè)正在為未來更高效的 AI 發(fā)展鋪平道路。
-
NVIDIA
+關注
關注
14文章
5304瀏覽量
106328 -
服務器
+關注
關注
13文章
9786瀏覽量
87906 -
數(shù)據(jù)中心
+關注
關注
16文章
5222瀏覽量
73487
原文標題:散熱新突破:NVIDIA Blackwell 平臺將用水效率提升超 300 倍
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

全球各大品牌利用NVIDIA AI技術提升運營效率
NVIDIA Blackwell推動流式傳輸和數(shù)據(jù)分析的未來發(fā)展
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅動的工程設計和科學應用
英偉達GTC2025亮點:NVIDIA Blackwell加速計算機輔助工程軟件,實現(xiàn)實時數(shù)字孿生性能數(shù)量級提升
NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構技術解析
英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
Supermicro提高NVIDIA Blackwell機架級解決方案產(chǎn)量
MediaTek與NVIDIA攜手打造GB10 Grace Blackwell超級芯片
Supermicro推出直接液冷優(yōu)化的NVIDIA Blackwell解決方案

評論