眾所周知,人工智能 (AI) 有望革新人類活動(dòng)的方方面面。然而,要充分釋放這一潛力,就必須面對(duì)一個(gè)基本事實(shí):支撐傳統(tǒng)計(jì)算的基礎(chǔ)設(shè)施已無法滿足未來 AI 發(fā)展的需求。
當(dāng)前,產(chǎn)業(yè)已經(jīng)見證了這場(chǎng)變革所呈現(xiàn)出的驚人規(guī)模:
訓(xùn)練 ChatGPT-4 使用了超過 1PB 的數(shù)據(jù),相當(dāng)于兩億首歌曲連續(xù)播放長(zhǎng)達(dá) 1,000 年。
OpenAI 每月為 10 億活躍用戶提供服務(wù),每位用戶消耗的數(shù)據(jù)量是傳統(tǒng)應(yīng)用的一萬倍。
到 2030 年,這場(chǎng) AI 革新將帶動(dòng)超過一萬億美元的基礎(chǔ)設(shè)施投資。
這一爆炸性增長(zhǎng)正在推動(dòng)數(shù)據(jù)中心的能耗從兆瓦級(jí)躍升至吉瓦級(jí),由此帶來的限制無法僅靠增加更多通用服務(wù)器來解決。整個(gè)行業(yè)必須從根本上重新思考計(jì)算基礎(chǔ)設(shè)施的架構(gòu)設(shè)計(jì)、構(gòu)建方式和部署策略。那些能夠成功駕馭這場(chǎng)轉(zhuǎn)型的企業(yè),將充分釋放 AI 的潛力;而未能及時(shí)跟進(jìn)的企業(yè),則極有可能面臨被市場(chǎng)淘汰的風(fēng)險(xiǎn)。
在近日于舊金山舉辦的第 62 屆設(shè)計(jì)自動(dòng)化大會(huì) (DAC) 的 SKYTalk 演講中,Arm 高級(jí)副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Mohamed Awad 分享了如何擁抱基礎(chǔ)設(shè)施變革,抓住 AI 的萬億美元機(jī)遇的經(jīng)驗(yàn)與洞察。
過往技術(shù)變革的經(jīng)驗(yàn)啟示
應(yīng)對(duì)如此巨大的技術(shù)變革其實(shí)已有“藍(lán)圖”可循。在過去的 30 年里,從移動(dòng)計(jì)算到汽車變革,再到物聯(lián)網(wǎng)部署,歷次成功的技術(shù)革命都遵循著相似的發(fā)展路徑。而那些最終脫穎而出成為領(lǐng)軍者的企業(yè),普遍具備以下三個(gè)共同特征:
追求技術(shù)領(lǐng)先
具備系統(tǒng)級(jí)思維
培育強(qiáng)大的生態(tài)系統(tǒng)
這一發(fā)展模式為 AI 轉(zhuǎn)型提供了重要借鑒。回顧移動(dòng)革命,它不僅僅是處理器速度的提升,更涉及對(duì)能效優(yōu)化、軟件棧乃至制造合作伙伴關(guān)系的全面革新。同樣,汽車行業(yè)向自動(dòng)駕駛和電動(dòng)化轉(zhuǎn)型的過程中,也需要在芯片設(shè)計(jì)、系統(tǒng)架構(gòu)以及生態(tài)協(xié)作等層面采取一體化的推進(jìn)策略。
Awad 表示,要讓 AI 真正實(shí)現(xiàn)我們?yōu)槠湓O(shè)定的宏偉目標(biāo),所需的其實(shí)還是同樣的路徑:技術(shù)領(lǐng)先、從底層開始設(shè)計(jì)的系統(tǒng),以及強(qiáng)大的生態(tài)系統(tǒng)。
基礎(chǔ)設(shè)施演進(jìn)的迫切性
數(shù)據(jù)中心的演進(jìn)過程充分展現(xiàn)了行業(yè)快速適應(yīng) AI 需求的能力。2020 年之前,企業(yè)主要依賴通用服務(wù)器,并通過 PCI 插槽添加加速器。到了 2020 年,重點(diǎn)轉(zhuǎn)向了具備 GPU 之間直連能力的集成服務(wù)器。2023 年,我們見證了 CPU 與 GPU 的高度耦合集成。而如今,行業(yè)正向完整的“AI 工廠”邁進(jìn),從芯片層面開始,為特定負(fù)載場(chǎng)景打造整個(gè)服務(wù)器機(jī)柜。
領(lǐng)先的科技公司正在摒棄“一刀切”的通用架構(gòu)思路。NVIDIA 的 Vera Rubin AI 集群、亞馬遜云科技 (AWS) 的 AI UltraCluster、Google 的 Cloud TPU 機(jī)柜,以及微軟的 Azure AI 機(jī)柜,都是針對(duì)自身獨(dú)特需求而專門打造的定制化系統(tǒng),而非通用解決方案。
Awad 解釋道,所有領(lǐng)先的超大規(guī)模云服務(wù)商都在做同樣的事情。他們從芯片層開始構(gòu)建高度集成的系統(tǒng),根據(jù)自身的系統(tǒng)需求反向驅(qū)動(dòng)芯片層的創(chuàng)新。
這一轉(zhuǎn)變反映出整個(gè)行業(yè)達(dá)成的廣泛共識(shí):AI 的計(jì)算需求必須依賴專為 AI 工作負(fù)載設(shè)計(jì)的基礎(chǔ)設(shè)施,而非在通用系統(tǒng)基礎(chǔ)上改造的解決方案。
經(jīng)大規(guī)模驗(yàn)證的性能表現(xiàn)
AWS 報(bào)告稱,過去兩年新部署的 CPU 算力中,有超過 50% 來自其搭載 Arm 架構(gòu)的 Graviton 處理器。此外,包括 Amazon Redshift、Prime Day、Google 搜索和 Microsoft Teams 在內(nèi)的關(guān)鍵工作負(fù)載,如今都運(yùn)行在基于 Arm Neoverse 等先進(jìn)技術(shù)構(gòu)建的基礎(chǔ)設(shè)施上,實(shí)現(xiàn)了顯著的性能提升與能效優(yōu)化。
Awad 進(jìn)一步解釋說,這些舉措并非出于成本削減的考量,而是為了追求性能。企業(yè)打造定制芯片,并不是因?yàn)樗杀靖停且驗(yàn)樗茉谔囟〝?shù)據(jù)中心環(huán)境下,實(shí)現(xiàn)通用解決方案所無法達(dá)到的性能與能效水平。
通過協(xié)作加速創(chuàng)新
打造定制芯片面臨著諸多挑戰(zhàn),包括高昂的成本、復(fù)雜的設(shè)計(jì)以及漫長(zhǎng)的開發(fā)周期。解決之道在于通過協(xié)作生態(tài)系統(tǒng)來降低門檻、加速創(chuàng)新。像 Arm CSS (Compute Subsystems) 此類的預(yù)集成的計(jì)算子系統(tǒng)、共享的設(shè)計(jì)資源以及經(jīng)過驗(yàn)證的工具流程,都能顯著縮短開發(fā)周期。
已有行業(yè)實(shí)例展現(xiàn)了生態(tài)協(xié)作的潛力。部分合作項(xiàng)目通過在設(shè)計(jì)中使用預(yù)配置、預(yù)驗(yàn)證的 CSS,使合作伙伴節(jié)省了 80 人/年的工程師投入,將開發(fā)周期從數(shù)年縮短至數(shù)月。
Awad 表示,其中一個(gè)項(xiàng)目從啟動(dòng)到制造出能夠在 128 個(gè)核心上運(yùn)行 Linux 的芯片,僅用了 13 個(gè)月,對(duì)于頂尖的芯片開發(fā)而言,這一速度堪稱驚人。
正在興起的芯粒 (Chiplet) 生態(tài)系統(tǒng),代表了行業(yè)協(xié)作的又一重大突破。像Arm 芯粒系統(tǒng)架構(gòu) (Arm Chiplet System Architecture, CSA)這樣的行業(yè)倡議正在定義通用接口與協(xié)議,諸多亞太地區(qū)的合作伙伴已經(jīng)參與其中,共同開發(fā)標(biāo)準(zhǔn)化的計(jì)算模塊,并可按需組合應(yīng)用于不同場(chǎng)景,從而構(gòu)建更加靈活且更具成本效益的開發(fā)路徑。此外,通過Arm 全面設(shè)計(jì) (Arm Total Design) 等生態(tài)項(xiàng)目,這類協(xié)作框架將晶圓代工廠、設(shè)計(jì)服務(wù)商、IP 供應(yīng)商以及固件合作伙伴緊密連接起來,以簡(jiǎn)化整個(gè)開發(fā)流程。
軟硬件協(xié)同釋放 AI 潛力
僅靠硬件創(chuàng)新無法真正釋放 AI 的潛力。實(shí)現(xiàn)成功還需要強(qiáng)大的軟件生態(tài)系統(tǒng)作支撐,這背后凝聚了長(zhǎng)達(dá) 15 年的持續(xù)投入,包括數(shù)百萬開發(fā)者的參與、廣泛的開源項(xiàng)目支持,以及成千上萬家供應(yīng)商共同打造兼容的解決方案。
當(dāng)今領(lǐng)先的 AI 基礎(chǔ)設(shè)施部署依托于成熟的軟件棧,涵蓋 Linux 發(fā)行版、云原生技術(shù)、企業(yè)級(jí) SaaS 應(yīng)用以及 AI/ML 框架等。這種軟件的成熟度使得企業(yè)能夠放心地部署新的硬件架構(gòu),確信其整個(gè)技術(shù)堆棧可以無縫運(yùn)行。
Awad 表示,如果沒有軟件,硬件就沒有意義。這一點(diǎn)至關(guān)重要。因?yàn)楫?dāng)我們談?wù)摓?AI 而打造的加速器、設(shè)備和芯片時(shí),人們常常會(huì)問我軟件方面的情況。常有初創(chuàng)公司來找我說,‘嘿,我開發(fā)了這個(gè)很棒的硬件產(chǎn)品。’但當(dāng)我問他們,‘有多少人專門為它開發(fā)軟件?’時(shí),答案往往就沒那么有說服力了。
擁抱基礎(chǔ)設(shè)施變革
隨著 AI 持續(xù)呈指數(shù)級(jí)增長(zhǎng),基礎(chǔ)設(shè)施面臨的挑戰(zhàn)也將愈發(fā)嚴(yán)峻。企業(yè)無法僅靠增加傳統(tǒng)服務(wù)器來實(shí)現(xiàn)擴(kuò)展,他們需要的是專為 AI 工作負(fù)載優(yōu)化的定制化系統(tǒng),同時(shí)還必須具備在前所未有的規(guī)模下高效運(yùn)行的能力。
能夠成功應(yīng)對(duì)這一轉(zhuǎn)型的企業(yè)和技術(shù),往往具備共同的特征:它們通過技術(shù)領(lǐng)先追求突破性性能表現(xiàn),采用系統(tǒng)級(jí)的整體思維而非組件級(jí)思維,并構(gòu)建協(xié)作型生態(tài)系統(tǒng),在加速創(chuàng)新的同時(shí)降低個(gè)體風(fēng)險(xiǎn)。
這場(chǎng)基礎(chǔ)設(shè)施變革既是挑戰(zhàn),也是機(jī)遇。那些正在著手準(zhǔn)備,通過理解這些核心原則并構(gòu)建合適的技術(shù)基礎(chǔ)的企業(yè),將更有機(jī)會(huì)抓住 AI 所帶來的萬億美元級(jí)市場(chǎng)機(jī)遇。而仍然固守舊有模式的企業(yè),則有可能錯(cuò)失當(dāng)代最大的技術(shù)機(jī)遇。
Awad 總結(jié),未來屬于那些已經(jīng)準(zhǔn)備好去創(chuàng)造它的人。基礎(chǔ)設(shè)施的變革已經(jīng)啟程。
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9791瀏覽量
87917 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5224瀏覽量
73494 -
AI
+關(guān)注
關(guān)注
88文章
35086瀏覽量
279432
原文標(biāo)題:擁抱基礎(chǔ)設(shè)施變革,抓住 AI 的萬億美元機(jī)遇
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
軟通動(dòng)力數(shù)字基礎(chǔ)設(shè)施2025合作伙伴大會(huì)圓滿落幕
歐洲聯(lián)手NVIDIA打造AI基礎(chǔ)設(shè)施
愛立信攜手英偉達(dá)建設(shè)瑞典AI基礎(chǔ)設(shè)施
曙光AI解決方案助力光大銀行數(shù)字化基礎(chǔ)設(shè)施升級(jí)
PoE交換機(jī)如何助力智慧城市基礎(chǔ)設(shè)施建設(shè)?
英偉達(dá)與xAI簽AI基建協(xié)議 加入全球人工智能基礎(chǔ)設(shè)施投資合作伙伴聯(lián)盟
NVIDIA 與行業(yè)領(lǐng)先的存儲(chǔ)企業(yè)共同推出面向 AI 時(shí)代的新型企業(yè)基礎(chǔ)設(shè)施

評(píng)論