編者按算力網(wǎng)絡(luò)有一個(gè)美好的愿景,就是希望算力和算網(wǎng),能像電力和電網(wǎng)一樣:
- 算力可以標(biāo)準(zhǔn)化,有統(tǒng)一的計(jì)量單位。類似電力計(jì)量的千瓦時(shí),或稱為度數(shù)。
- 有很多算力中心生產(chǎn)算力,類似電廠生產(chǎn)電力。
- 生產(chǎn)出來的算力,通過接入算網(wǎng),最終供應(yīng)給算力的客戶。類似電廠的電力,通過電網(wǎng)接入千家萬戶。
- 算力“隨時(shí)隨地,無處不在”,算力客戶可以非常方便的隨時(shí)接入任何位置的算力,支撐自己的業(yè)務(wù)。類似無處不在的電源接口,方便我們隨時(shí)隨地使用電力。
- 從基礎(chǔ)設(shè)施的角度看,就是希望算力基礎(chǔ)設(shè)施也能像電力基礎(chǔ)設(shè)施一樣,通過更大規(guī)模的人力物力投入,實(shí)現(xiàn)算力基礎(chǔ)設(shè)施的領(lǐng)先。
但算力基礎(chǔ)設(shè)施,和我們的能源、電力、交通等傳統(tǒng)基礎(chǔ)設(shè)施相比,仍存在許多風(fēng)險(xiǎn)和挑戰(zhàn)。今天這篇文章,我們拋磚引玉。
1、算力基礎(chǔ)設(shè)施戰(zhàn)略價(jià)值巨大
本章節(jié)內(nèi)容節(jié)選自《2022-2023全球計(jì)算力指數(shù)評(píng)估報(bào)告》,由IDC、浪潮信息、清華全球產(chǎn)業(yè)院。內(nèi)容有調(diào)整。
通過數(shù)字技術(shù)推動(dòng)業(yè)務(wù)變革,進(jìn)而實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,已經(jīng)成為傳統(tǒng)企業(yè)發(fā)展的必由之路。隨著數(shù)字技術(shù)的不斷進(jìn)步和發(fā)展,以及數(shù)據(jù)量的爆發(fā)性增長(zhǎng),強(qiáng)大的算力,成為了創(chuàng)新和突破的關(guān)鍵要素。以人工智能領(lǐng)域?yàn)榈湫停斯ぶ悄艽竽P偷陌l(fā)展,受算力發(fā)展的直接影響。人工智能算法和技術(shù)被應(yīng)用于各種領(lǐng)域和行業(yè)(AI+),如自動(dòng)駕駛汽車、醫(yī)療診斷、金融預(yù)測(cè)等。 算力的發(fā)展不僅激發(fā)數(shù)字技術(shù)的創(chuàng)新和突破,也推動(dòng)了數(shù)字技術(shù)在各行各業(yè)的廣泛應(yīng)用與深度融合,為各行業(yè)能夠?qū)崿F(xiàn)科技創(chuàng)新提供了重要支撐。
在數(shù)字經(jīng)濟(jì)時(shí)代,算力是國(guó)家經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵驅(qū)動(dòng)力之一。根據(jù)上圖可以看到,算力的提高對(duì)一國(guó)經(jīng)濟(jì)增長(zhǎng)的拉動(dòng)效應(yīng)非常顯著,且隨著計(jì)算力指數(shù)的增加,提升效應(yīng)會(huì)越來越明顯。
評(píng)估結(jié)果顯示,十五個(gè)樣本國(guó)家的計(jì)算力指數(shù)平均每提高1點(diǎn),國(guó)家的數(shù)字經(jīng)濟(jì)和GDP將分別增長(zhǎng)3.6‰和1.7‰。
總之,算力基礎(chǔ)設(shè)施支撐并加速新質(zhì)生產(chǎn)力和千行百業(yè)的發(fā)展,算力基礎(chǔ)設(shè)施是整個(gè)國(guó)民經(jīng)濟(jì)發(fā)展的重中之重。
2、算力基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)和挑戰(zhàn)
雖然算力和我們的鐵路、公路、水利、電力等行業(yè)一樣,被稱為基礎(chǔ)設(shè)施。但算力是新型基礎(chǔ)設(shè)施,和這些傳統(tǒng)基礎(chǔ)設(shè)施相比,仍存在非常大的差異性。而這些差異性,也基本上就是算力基礎(chǔ)設(shè)施存在的風(fēng)險(xiǎn)和挑戰(zhàn)。
本章節(jié),我們就算力基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)和挑戰(zhàn)進(jìn)行分析,無法面面俱到,僅限拋磚引玉。關(guān)于算力基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)和挑戰(zhàn),希望能夠得到全行業(yè)的重視。全行業(yè)一起努力,能夠構(gòu)建符合技術(shù)和市場(chǎng)規(guī)律,并且能夠支撐國(guó)家數(shù)字經(jīng)濟(jì)快速發(fā)展的新型算力基礎(chǔ)設(shè)施。
2.1 算力難以標(biāo)準(zhǔn)化
如果算力可以公平且標(biāo)準(zhǔn)化的度量,那么算力就可以像電力一樣,大規(guī)模生產(chǎn)和消費(fèi)。但實(shí)際的情況,遠(yuǎn)比想象的要復(fù)雜的多。
我們通過兩個(gè)案例進(jìn)行分析。
首先是CPU處理器的案例。CPU是最通用的處理器,沒有之一。我們以CPU中兩個(gè)重要的部件進(jìn)行分析:
- Cache,多核CPU中通常集成了L1-L3三級(jí)Cache。如果遇到流式數(shù)據(jù)處理,此刻Cache幾乎沒有價(jià)值;如果是循環(huán)等結(jié)構(gòu)的業(yè)務(wù)算法,Cache的價(jià)值就非常大。反過來,流式數(shù)據(jù)處理,會(huì)優(yōu)先選擇Cache盡可能小一些的處理器;而循環(huán)類結(jié)構(gòu)的業(yè)務(wù)算法,會(huì)優(yōu)先選擇大Cache的處理器。
- 協(xié)處理器,CPU內(nèi)部也集成協(xié)處理器,如Intel AVX/AMX指令協(xié)處理器。如果是傳統(tǒng)的控制類任務(wù),就不需要AVX/AMX協(xié)處理器。但如果是視頻、圖像等任務(wù),就需要AVX;如果是AI類處理,就需要AMX。反過來說,如果是控制類的任務(wù),AVX/AMX協(xié)處理器對(duì)我來說沒有價(jià)值,如果仍需要為這些協(xié)處理器的算力付費(fèi),則是相對(duì)不公平的。客戶會(huì)優(yōu)選沒有AVX、AMX等協(xié)處理器的CPU處理器。
第二個(gè)案例,CPU vs 專用處理器。如果同樣的1000TOPS算力(折合成TOPS統(tǒng)一單位),CPU算力和專用處理器的算力哪個(gè)更好?一般來說,CPU算力更好,因?yàn)镃PU算力更加通用,可以用在幾乎所有場(chǎng)景,并且對(duì)軟件和軟件開發(fā)者的要求更低。而專用處理器,僅能支持某個(gè)特定場(chǎng)景,甚至某個(gè)特定算法算力,對(duì)其他的業(yè)務(wù)場(chǎng)景來說,價(jià)值幾乎為零。這樣的話,這兩種算力,能賣相同的價(jià)格嗎?我們假設(shè)CPU 1000TOPS算力價(jià)格為1000元/月,那么,專用處理器 1000TOPS算力的價(jià)格10塊錢,都不一定能找到合適的客戶。
算力為什么難以標(biāo)準(zhǔn)化?本質(zhì)的原因在于計(jì)算引擎和業(yè)務(wù)算法的耦合性。在加減乘數(shù)等基本指令的通用CPU基礎(chǔ)上,做的任何優(yōu)化,其實(shí)都是面向某些特定規(guī)律的計(jì)算或算法優(yōu)化。這些加速計(jì)算引擎只有找到匹配的業(yè)務(wù)算法,才能發(fā)揮價(jià)值;反過來,如果沒有匹配的業(yè)務(wù)算法,計(jì)算引擎的價(jià)值就很低很低。
簡(jiǎn)單總結(jié)如下:
- 一方面,計(jì)算引擎微架構(gòu)的復(fù)雜性,決定了計(jì)算性能的測(cè)量是一件非常復(fù)雜、難以面面俱到并且足夠公平的事情。
- 另一方面,計(jì)算的通用性,或者說對(duì)業(yè)務(wù)算法的廣泛覆蓋性,也是一個(gè)非常重要的維度。而這個(gè)維度,在算力計(jì)量之外。
- 此外,計(jì)算引擎和業(yè)務(wù)算法的耦合性,決定了算力的價(jià)值到底能發(fā)揮幾何。計(jì)算引擎大體上可以分為三類:通用的CPU、并行計(jì)算的GPU等、以及專用加速的各種DSA/ASIC,這些計(jì)算引擎的算力無法完全按照算力來折算,而要根據(jù)算法和計(jì)算引擎的匹配,來計(jì)算實(shí)際算力。
- 那么,我們是否可以以業(yè)務(wù)算法為基準(zhǔn),誰能夠更快速的完成一個(gè)特點(diǎn)單位的業(yè)務(wù)算法,誰的性能就好,誰的價(jià)值就高。答案也是否定的。因?yàn)闃I(yè)務(wù)算法千千萬,單個(gè)業(yè)務(wù)算法無法評(píng)價(jià),所有的算法加權(quán)綜合評(píng)價(jià)也意義不大。對(duì)具體的業(yè)務(wù)客戶來說,自己的算法能不能更快速更低成本的計(jì)算,才是需要關(guān)心的事情。
- 還有一個(gè)重要的方面,業(yè)務(wù)算法本身的價(jià)值。比如,同樣的算力,如果用于AI計(jì)算,一般來說,價(jià)值要高一些。如果用于網(wǎng)絡(luò) 存儲(chǔ)計(jì)算,則價(jià)值要低一些。這些也會(huì)影響到專用加速器算力的價(jià)格定義。
- 等等。
總結(jié)一下,我們認(rèn)為,計(jì)算是一件非常復(fù)雜的事情,算力(也即計(jì)算的能力)的標(biāo)準(zhǔn)化,幾乎是一個(gè)偽命題。
2.2 業(yè)務(wù)的算力需求指數(shù)級(jí)增長(zhǎng)
從上圖可以看到,從2012年深度學(xué)習(xí)的興起,算力需求逐漸增強(qiáng),跳脫摩爾定律約束,需要GPU加速處理器,以及Scale out的集群計(jì)算。這一時(shí)期,算力需求每3.4個(gè)月翻倍。從2018年開始,隨著大模型的流行,算力需求進(jìn)一步加速,每2個(gè)月就會(huì)翻倍。與此同時(shí),Scale Out也越來越難以為繼,集群規(guī)模從千卡到萬卡,再到十萬卡。集群規(guī)模的不斷擴(kuò)大,使得AI計(jì)算的成本越來越成為天文數(shù)字。例如,微軟與OpenAI制定的新一代AI算力芯片和基礎(chǔ)設(shè)施項(xiàng)目星際之門,預(yù)計(jì)耗資1000億美元;目標(biāo)參數(shù)規(guī)模為1000萬億,是GPT4的10000倍。業(yè)務(wù)需求和算力基礎(chǔ)設(shè)施的差距成指數(shù)級(jí)增長(zhǎng),兩者之間的矛盾進(jìn)一步加劇。要想根本性的解決問題,一方面需要單節(jié)點(diǎn)的計(jì)算架構(gòu)的創(chuàng)新(Scale Up創(chuàng)新),也需要更高效的集群網(wǎng)絡(luò)解決方案,進(jìn)一步支持更大規(guī)模的集群計(jì)算(Scale Out創(chuàng)新)。
2.3 算力技術(shù)體系的門檻非常之高
算力涉及芯片、硬件及基礎(chǔ)設(shè)施、軟件以及業(yè)務(wù)四個(gè)主要的方案,每一項(xiàng)都非常的復(fù)雜,且有極高的技術(shù)門檻:
芯片,是計(jì)算(算力)的硬件載體。隨著芯片工藝進(jìn)入10nm以內(nèi),逐漸接近物理極限,芯片制造的門檻越來越高,一代新工藝投入通常在千億美金級(jí)別。單芯片所能容納的晶體管數(shù)量已經(jīng)達(dá)到數(shù)百億級(jí),再加上Chiplet先進(jìn)封裝的加持,未來,單個(gè)芯片的晶體管數(shù)量會(huì)突破萬億級(jí)大關(guān)。這么龐大的晶體管數(shù)量,如果進(jìn)行芯片的系統(tǒng)架構(gòu)和微架構(gòu)設(shè)計(jì),也是非常大的挑戰(zhàn)。
硬件設(shè)備和外圍基礎(chǔ)設(shè)施。在智算時(shí)代,硬件設(shè)備的功耗都非常的恐怖。傳統(tǒng)CPU服務(wù)器單臺(tái)功率在300W左右,而目前主流GPU服務(wù)器的功耗都達(dá)到了10KW左右,整整提升了30倍以上。于是,傳統(tǒng)的風(fēng)冷散熱已經(jīng)逐漸走出歷史舞臺(tái),更高技術(shù)要求的液冷成為了主流。此外,數(shù)據(jù)中心的功耗越來越大,綠色數(shù)據(jù)中心越來越成為必然的要求。如何降低PUE,需要數(shù)據(jù)中心基礎(chǔ)設(shè)施統(tǒng)籌的技術(shù)革新和綜合能耗優(yōu)化,甚至需要能源和電力產(chǎn)業(yè)的配合。
軟件,是計(jì)算的靈魂。系統(tǒng)級(jí)軟件如操作系統(tǒng)(如Linux)、集群操作系統(tǒng)(如Kubernetes),以及其他基礎(chǔ)軟件、數(shù)據(jù)庫軟件、中間件軟件,以及加速計(jì)算框架、業(yè)務(wù)框架等等,軟件生態(tài)五花八門。每一項(xiàng)都非常的復(fù)雜,每一項(xiàng)其生態(tài)的形成都經(jīng)過了漫長(zhǎng)而艱難的階段。
業(yè)務(wù)。新的技術(shù)、新的場(chǎng)景、新的業(yè)務(wù)落地,有非常大的難度。特別是跟硬件關(guān)聯(lián)度非常大,受硬件物理?xiàng)l件的約束的場(chǎng)景,如自動(dòng)駕駛智能汽車、XR元宇宙、人形機(jī)器人等。如何實(shí)現(xiàn)軟硬件深度協(xié)同和融合的綜合算力技術(shù)體系,受到很多現(xiàn)實(shí)的約束,實(shí)現(xiàn)的難度巨大,需要更多的創(chuàng)新驅(qū)動(dòng)。
總之,從算力芯片,到硬件以及相關(guān)軟件和開發(fā)框架,軟硬件體系極度龐大和復(fù)雜,技術(shù)門檻非常高。
2.4 算力技術(shù)迭代很快
TSMC 3nm工藝已經(jīng)量產(chǎn),2nm、1nm也都在未來幾年的路線圖中。并且,TSMC已經(jīng)開始在攻關(guān)0.1nm工藝,半導(dǎo)體工藝即將進(jìn)入亞納米(埃米)時(shí)代。在存儲(chǔ)領(lǐng)域,近些年來還興起了3D封裝技術(shù),使得集成電路從二維進(jìn)入三維。在封裝領(lǐng)域,Chiplet先進(jìn)封裝機(jī)制,把多個(gè)芯片裸DIE集成到一起,從3D到4D,都進(jìn)一步增強(qiáng)了單位面積的晶體管集成度。
隨著單芯片所能容納的晶體管數(shù)量逐漸增加,計(jì)算的架構(gòu)也越來越復(fù)雜,逐漸從CPU同構(gòu)、CPU+GPU的異構(gòu),走向了CPU+GPU+DSAs的異構(gòu)融合。2023年9月15日,在湖南長(zhǎng)沙的世界計(jì)算大會(huì)上,《異構(gòu)融合計(jì)算技術(shù)白皮書》由工信部電子五所發(fā)布(關(guān)注軟硬件融合公眾號(hào),回復(fù)“白皮書”,可下載此白皮書)。
算力芯片的設(shè)計(jì)模式,已經(jīng)從“硬件定義軟件”轉(zhuǎn)向“軟件定義硬件”。傳統(tǒng)的算力芯片設(shè)計(jì)模式,是先有芯片,然后是驅(qū)動(dòng)和開發(fā)框架,再然后是基于框架的軟件任務(wù)。但這種方式,每家芯片公司都是一個(gè)獨(dú)立的架構(gòu),獨(dú)立的生態(tài)。一方面,構(gòu)建生態(tài)的門檻非常高,另一方面,這種方式對(duì)客戶非常不友好。特別是在計(jì)算的主流方式從單機(jī)走向大規(guī)模集群計(jì)算的當(dāng)下,客戶既傾向于統(tǒng)一的計(jì)算平臺(tái),又不想被特定的廠家綁定。軟件定義硬件的方式,是客戶和芯片供應(yīng)商最大的公約數(shù)。
這里就計(jì)算的形態(tài)再做進(jìn)一步展開。隨著大模型的發(fā)展,計(jì)算需求的規(guī)模越來越大,和單顆芯片所能提供的性能差距的數(shù)量級(jí),也在不斷增加。千卡集群、萬卡集群,甚至十萬卡、百萬卡集群也已經(jīng)在路上。超大規(guī)模集群計(jì)算,甚至跨云邊端的融合計(jì)算,已經(jīng)成為了計(jì)算的主流形態(tài)。
摩爾定律告訴我們,每18-24個(gè)月芯片的性能就會(huì)翻倍。NVIDIA黃仁勛的黃氏定律告訴我們,計(jì)算性能會(huì)每一年翻一倍。這兩個(gè)定律意味著,算力芯片的迭代周期是1-2年一代。
軟件的迭代就更快了,軟件開發(fā)更是講究“小步快跑”,通常是2-3個(gè)月一個(gè)小迭代,一年一個(gè)大迭代,不然就趕不上業(yè)務(wù)快速發(fā)展的需要。
2.5 算力基礎(chǔ)設(shè)施的生命周期非常短
傳統(tǒng)基礎(chǔ)設(shè)施,技術(shù)更新?lián)Q代較慢,傳統(tǒng)基礎(chǔ)設(shè)施的生命周期很長(zhǎng),通常在50年以上,有的甚至100年以上。
而受算力各項(xiàng)技術(shù)的快速更新迭代,特別是摩爾定律和黃氏定律的影響,算力基礎(chǔ)設(shè)施的生命周期通常4-5年。因?yàn)椋?-5年時(shí)間之后,硬件的可靠性會(huì)越來越差,并且計(jì)算的各項(xiàng)支出越來越不夠經(jīng)濟(jì),必須要更換更加先進(jìn)的計(jì)算設(shè)備和相應(yīng)的軟硬件技術(shù)棧。
3、開放的技術(shù)棧,開放的產(chǎn)業(yè)鏈
國(guó)產(chǎn)算力芯片最大的困境在于生態(tài):構(gòu)建一個(gè)新的計(jì)算生態(tài),門檻非常高,千億級(jí)投入都不一定成功。但行業(yè)除了NVIDIA CUDA生態(tài)之外,還有一個(gè)更加強(qiáng)大的生態(tài),即全球幾乎所有互聯(lián)網(wǎng)公司(客戶)都支持的開源軟件生態(tài)。基于開源軟件,實(shí)現(xiàn)開源軟件定義的開放硬件,形成一個(gè)更加開放更加強(qiáng)大的開源的技術(shù)(棧)生態(tài)。
國(guó)家多個(gè)部委發(fā)文,說要構(gòu)建全國(guó)一體化算力網(wǎng)。但一體化算力網(wǎng),并不意味著是一家公司獨(dú)大,而是意味著算力的充分利用和價(jià)值的最大化發(fā)揮。我們認(rèn)為,未來也是類似公有云的競(jìng)爭(zhēng)態(tài)勢(shì),最終形成5家左右具有全國(guó)甚至全球影響力的算力網(wǎng)公司,以及10家以上具有行業(yè)和領(lǐng)域特色的專業(yè)算力網(wǎng)公司。總之,整個(gè)產(chǎn)業(yè)鏈?zhǔn)情_放的:
IDC,聚焦數(shù)據(jù)中心的基礎(chǔ)設(shè)施;自身的基礎(chǔ)設(shè)施可以服務(wù)公有云和算力中心等各類客戶。
算力中心,聚焦算力生產(chǎn)。通過融合計(jì)算的綜合算力創(chuàng)新優(yōu)化,實(shí)現(xiàn)算力的最高性能和最低成本,以及超大規(guī)模。算力可以賣給任何一家算力網(wǎng)公司,以及直接賣給大客戶。
算力網(wǎng),聚焦業(yè)務(wù)落地。主要聚焦PaaS服務(wù)和算力解決方案,服務(wù)好客戶業(yè)務(wù)落地。
業(yè)務(wù)客戶,可以從自建的私有云、公有云以及算力網(wǎng)獲得優(yōu)質(zhì)而低成本的且“無處不在,隨時(shí)隨地可獲取”的算力,服務(wù)好自身的業(yè)務(wù)。
只有開放,才能最大限度的發(fā)揮各自的創(chuàng)造力和和市場(chǎng)競(jìng)爭(zhēng)價(jià)值,才能最大限度的實(shí)現(xiàn)技術(shù)的快速進(jìn)步,才能實(shí)現(xiàn)算力芯片和算力產(chǎn)業(yè)鏈的獨(dú)立自主,甚至全球領(lǐng)先。
在線研討會(huì) | 深入了解Imagination APXM-6200:全新性能密集型應(yīng)用CPU
-
電網(wǎng)
+關(guān)注
關(guān)注
13文章
2232瀏覽量
60181 -
人工智能
+關(guān)注
關(guān)注
1804文章
48737瀏覽量
246669 -
算力
+關(guān)注
關(guān)注
2文章
1148瀏覽量
15463
發(fā)布評(píng)論請(qǐng)先 登錄
AIGC算力基礎(chǔ)設(shè)施技術(shù)架構(gòu)與行業(yè)實(shí)踐

達(dá)實(shí)智能助力打造綠色智慧算力中心
寧暢為企業(yè)量身定制算力解決方案

算智算中心的算力如何衡量?

全球首個(gè)光電融合算網(wǎng)基礎(chǔ)設(shè)施正式開通
企業(yè)AI算力租賃模式的好處
智算中心崛起:數(shù)字化時(shí)代的新核心基礎(chǔ)設(shè)施

中金數(shù)據(jù)烏蘭察布零碳算力基地首批算力機(jī)房驗(yàn)收交付

AI驅(qū)動(dòng)下的數(shù)字經(jīng)濟(jì):智能社會(huì)基礎(chǔ)設(shè)施與算力革新

使用SiC技術(shù)應(yīng)對(duì)能源基礎(chǔ)設(shè)施的挑戰(zhàn)

IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書
中科馭數(shù):DPU是構(gòu)建高效智算中心基礎(chǔ)設(shè)施的必選項(xiàng)
聯(lián)想全棧算力基礎(chǔ)設(shè)施發(fā)布 躋身中國(guó)第一陣營(yíng)再啟新程

評(píng)論