如今,對(duì)人工智能的需求巨大。法國(guó)施耐德電氣公司估計(jì),2023年人工智能工作負(fù)載的功耗總計(jì)約為4.3吉瓦(GW),略低于塞浦路斯國(guó)家2021年的功耗( 4.7吉瓦)。該公司預(yù)計(jì),人工智能工作負(fù)載的功耗將以26%至36%的復(fù)合年增長(zhǎng)率(CAGR)增長(zhǎng),這意味著到2028年,人工智能工作負(fù)載的功耗將從13.5吉瓦增至20吉瓦,這比冰島2021年消費(fèi)的電力消耗還要多。
巨大的電力需求
據(jù)施耐德電氣稱(chēng),到 2023 年,所有數(shù)據(jù)中心的總功耗預(yù)計(jì)將達(dá)到 54 GW,其中人工智能工作負(fù)載將占到 4.3 GW。在這些人工智能工作負(fù)載中,訓(xùn)練和推理之間的分配特點(diǎn)是 20% 的功耗用于訓(xùn)練目的,80% 分配給推理任務(wù)。這意味著人工智能工作負(fù)載將占今年數(shù)據(jù)中心總功耗的約8%。
展望 2028 年,施耐德預(yù)計(jì)數(shù)據(jù)中心的總能耗將增至 90 吉瓦,其中人工智能工作負(fù)載的能耗將達(dá)到 13.5 吉瓦至 20 吉瓦。這表明,到 2028 年,人工智能可能消耗數(shù)據(jù)中心總用電量的 15% 至 20% 左右,這表明數(shù)據(jù)中心人工智能工作負(fù)載的功耗比例在五年內(nèi)顯著增加。根據(jù)施耐德電氣的估計(jì),訓(xùn)練和推理之間的分布預(yù)計(jì)將略有變化,訓(xùn)練消耗 15% 的電力,推理則占 85%。
人工智能數(shù)據(jù)中心功耗不斷上升的主要原因是人工智能工作負(fù)載的加劇、人工智能GPU和人工智能處理器的進(jìn)步以及其他數(shù)據(jù)中心硬件的要求不斷增加。例如,Nvidia 2020 年的 A100 功耗高達(dá) 400W,而 2022 年的 H100 功耗高達(dá) 700W。除了 GPU 之外,AI 服務(wù)器還運(yùn)行耗電的 CPU 和網(wǎng)卡。
AI 工作負(fù)載,尤其是與訓(xùn)練相關(guān)的工作負(fù)載,需要大量計(jì)算資源,包括配備 AI GPU、專(zhuān)用 ASIC 或 CPU 的專(zhuān)用服務(wù)器。人工智能集群的規(guī)模受人工智能模型的復(fù)雜性和規(guī)模的影響,是功耗的主要決定因素。更大的人工智能模型需要更多數(shù)量的 GPU,從而增加總體能源需求。例如,擁有 22,000 個(gè) H100 GPU 的集群使用大約 700 個(gè)機(jī)架。基于 H100 的機(jī)架在安裝八臺(tái) HPE Cray XD670 GPU 加速服務(wù)器時(shí),機(jī)架總密度為 80 kW。施耐德電氣指出,因此,整個(gè)集群需要大約 31 兆瓦的電力,這還不包括冷卻等額外基礎(chǔ)設(shè)施需求所需的能源。
這些集群和 GPU 在整個(gè)訓(xùn)練過(guò)程中通常幾乎滿(mǎn)負(fù)荷運(yùn)行,確保平均能耗幾乎與峰值功耗相同。該文件指出,大量AI集群的機(jī)架密度在30kW到100kW之間,具體取決于GPU的數(shù)量和型號(hào)。
網(wǎng)絡(luò)延遲在人工智能數(shù)據(jù)中心的功耗中也起著至關(guān)重要的作用。復(fù)雜的網(wǎng)絡(luò)基礎(chǔ)設(shè)施對(duì)于支持分布式訓(xùn)練過(guò)程中強(qiáng)大的 GPU 所需的高速數(shù)據(jù)通信至關(guān)重要。對(duì)高速網(wǎng)絡(luò)電纜和基礎(chǔ)設(shè)施(例如能夠支持高達(dá) 800 Gb/s 速度的電纜和基礎(chǔ)設(shè)施)的需求進(jìn)一步增加了總體能耗。
鑒于人工智能工作負(fù)載需要高耗電的 ASIC、GPU、CPU、網(wǎng)卡和 SSD,冷卻構(gòu)成了重大挑戰(zhàn)。鑒于高機(jī)架密度和計(jì)算過(guò)程中產(chǎn)生的巨大熱量,有效的冷卻解決方案對(duì)于保持最佳性能并防止硬件故障或失效至關(guān)重要。與此同時(shí),空氣和液體冷卻方法在功耗方面也“昂貴”,這就是為什么它們也對(duì)用于人工智能工作負(fù)載的數(shù)據(jù)中心的功耗造成很大影響。
一些建議
施耐德電氣預(yù)計(jì)AI硬件的功耗不會(huì)很快降低,公司充分預(yù)計(jì)AI機(jī)架的功耗將達(dá)到100kW或更高。因此,施耐德電氣對(duì)專(zhuān)門(mén)處理人工智能工作負(fù)載的數(shù)據(jù)中心提出了一些建議。
施耐德電氣特別建議從傳統(tǒng)的120/208V過(guò)渡到240/415V配電,以更好地適應(yīng)人工智能工作負(fù)載的高功率密度。對(duì)于冷卻,建議從空氣冷卻轉(zhuǎn)向液體冷卻,以提高處理器的可靠性和能源效率,盡管沉浸式冷卻可能會(huì)產(chǎn)生更好的效果。使用的貨架應(yīng)更寬敞,其規(guī)格例如寬度至少為 750 毫米,靜態(tài)承重能力大于 1,800 公斤。
審核編輯:劉清
-
asic
+關(guān)注
關(guān)注
34文章
1242瀏覽量
121974 -
SSD
+關(guān)注
關(guān)注
21文章
2947瀏覽量
119099 -
人工智能
+關(guān)注
關(guān)注
1804文章
48677瀏覽量
246381 -
GPU芯片
+關(guān)注
關(guān)注
1文章
305瀏覽量
6120 -
AI芯片
+關(guān)注
關(guān)注
17文章
1968瀏覽量
35689
原文標(biāo)題:AI芯片成為耗電大戶(hù),負(fù)載功耗接近一個(gè)小國(guó)家
文章出處:【微信號(hào):Mobile-Info,微信公眾號(hào):手機(jī)技術(shù)資訊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何選擇適合的TONTEK(通泰)觸摸芯片?

接近開(kāi)關(guān)的工作電壓和功耗如何
AI玩具芯片如何尋找性能、功耗與成本之間的平衡點(diǎn)
低功耗電壓檢測(cè)芯片TPS3803浪涌防護(hù)方案

**【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**
2.5D封裝為何成為AI芯片的“寵兒”?

AN23-用于信號(hào)調(diào)理的微功耗電路

ASIC芯片會(huì)成為AI的下一件大事嗎

AI算力芯片供電電源測(cè)試?yán)?費(fèi)思低壓大電流系列電子負(fù)載

探索低功耗電動(dòng)云臺(tái)驅(qū)動(dòng)板方案的應(yīng)用奧秘

一款4644芯片低功耗設(shè)計(jì)思路解析
THP210單端轉(zhuǎn)差分輸出異常的原因?
低功耗BLE Mesh耗電量很大的原因?
日本EdgeCortix推出省電AI芯片,耗電量大幅降低
芯片功耗提升,散熱面臨挑戰(zhàn)!

評(píng)論