編者按
算力網(wǎng)絡(luò)的概念逐漸深入人心,算力網(wǎng)絡(luò)的愿景是“讓算力無處不在,唾手可得”。這個愿景非常的令人向往。
在本篇文章中,我們提到兩個概念:復(fù)雜系統(tǒng)和復(fù)雜計算。復(fù)雜系統(tǒng)指的是多個系統(tǒng)融合而成的宏系統(tǒng);復(fù)雜計算,則是復(fù)雜系統(tǒng)的計算范式。
1 從宏觀算力講起
什么是性能?什么是算力?這兩個概念是統(tǒng)一的,性能是微觀的概念,而算力是宏觀的概念。
性能和算力的關(guān)系,如下面這個簡化公式:總算力 = 芯片性能 x 芯片數(shù)量 x 算力利用率。
這三個參數(shù),也對應(yīng)了算力優(yōu)化的微觀、中觀和宏觀的三個層次:
微觀層次,即單芯片的性能,主要是通過工藝進步、Chiplet封裝以及架構(gòu)和微架構(gòu)創(chuàng)新來提升。
中觀層次,芯片要能夠支持大規(guī)模落地。這里講一個反面案例,由于AI的算法眾多并且快速多變,AI芯片落地存在困難,難以大規(guī)模量產(chǎn)。無法量產(chǎn)的芯片,對宏觀算力的提升,沒有多大意義。
最后是宏觀層次,算力的利用率。我們有了這么多芯片,但如果是孤島,有的系統(tǒng)性能不夠用,而大部分系統(tǒng)的算力又嚴重浪費,那就沒有充分利用這些算力資源。有過統(tǒng)計,云計算,算力利用率通常在6%左右,要是有辦法,把算力資源利用率提升到90%以上,這將是非常巨大的價值。要提升利用率,在芯片層面也要做很多的工作,宏觀上也要做很多的工作。
對宏觀算力影響最大最直接的,就是算力的利用率。需要把宏觀的遍布在云網(wǎng)邊端的所有計算的資源,連成一個宏大的資源池,統(tǒng)一調(diào)度。
2 從虛擬化到資源池化
按照虛擬化層次,虛擬化分為計算機虛擬化、操作系統(tǒng)虛擬化和函數(shù)虛擬化。綜合這三類虛擬化的共性價值:
虛擬化按照一定時間或空間的粒度,把資源切分和組合;
虛擬化屏蔽架構(gòu)/接口差異性,為上層軟件提供一致性的硬件/軟件;
虛擬化為上層軟件系統(tǒng)提供多種下層資源不同比例組合的運行平臺;
上層軟件系統(tǒng)和下層硬件/軟件系統(tǒng)解耦,上層軟件系統(tǒng)作為運行實體,可以創(chuàng)建/銷毀、運行/掛起、復(fù)制、遷移等;
多系統(tǒng)隔離/共存:資源共享的同時,數(shù)據(jù)隔離、性能隔離、故障隔離、安全隔離;
提升系統(tǒng)靈活性,提升資源利用率,提升硬件負載均衡性,提升軟件高可用性。
以VM為例,假設(shè)有100臺服務(wù)器,一臺物理的服務(wù)器虛擬出10臺VM,1000個邏輯的(或虛擬的)VM分屬于50個不同大小的私有集群(通過VPC)。
多集群多系統(tǒng)動態(tài)共存體現(xiàn)在:
硬件集群:供系統(tǒng)調(diào)度的一組硬件設(shè)備的集合,可以從數(shù)臺到數(shù)千臺,甚至百萬臺的規(guī)模;
軟件多系統(tǒng):通過虛擬化機制,實現(xiàn)單個硬件上的多個不同規(guī)格的軟件系統(tǒng)共存;
軟件多系統(tǒng)集群:一組軟件系統(tǒng)組成軟件集群,多組軟件集群混合交叉部署在一組硬件集群之上;
動態(tài)性:宏觀地看,這些硬件集群和軟件集群的配置一直處于頻繁的變更中。
很多加速芯片,專注于特定領(lǐng)域:只考慮局部,而沒有考慮全局。
數(shù)據(jù)中心硬件是預(yù)配置的,購買時不確定運行什么軟件;以不變應(yīng)萬變,優(yōu)先考慮足夠通用的、綜合性的硬件。
此外,站在云計算公司的運營管理視角,需要盡可能地減少硬件的型號,最理想情況是:硬件規(guī)格是一致性的,只有一種型號的硬件,然后通過虛擬化機制實現(xiàn)“軟件運行平臺”的差異性。
從虛擬化到資源池化:
虛擬化是池化的基礎(chǔ):虛擬化側(cè)重于硬件個體,池化側(cè)重宏觀整體;
虛擬化:把資源切分成合適的粒度,再通過虛擬化實例的創(chuàng)建和遷移實現(xiàn)資源的調(diào)度;
資源池化的微觀機制是虛擬化,通過云操作系統(tǒng)堆棧,甚至跨云網(wǎng)邊端的操作系統(tǒng)堆棧,實現(xiàn)虛擬化資源的統(tǒng)一管理、使用和回收等;
微觀的虛擬化實現(xiàn)了軟件運行平臺的高可用,宏觀的資源池化實現(xiàn)硬件資源的高利用率;
可被池化的(顯式可見的)底層硬件資源包括CPU、內(nèi)存、GPU/DSA等加速器、存儲等。
3 復(fù)雜系統(tǒng)的宏觀特征
我們先了解一下,復(fù)雜計算面向的系統(tǒng)具有哪些宏觀的特征呢?
第一,系統(tǒng)要干什么,不知道。傳統(tǒng)我們做芯片和系統(tǒng)設(shè)計,通常是要去理解場景,然后根據(jù)場景的需求來設(shè)計我們的芯片和系統(tǒng)。現(xiàn)在的挑戰(zhàn)是,場景的需求是完全不確定的,不但芯片公司不了解,客戶自己也“不了解”。未來,需要“無的放矢”。
第二,由于系統(tǒng)要什么不清楚,也因此系統(tǒng)要包羅萬象,啥都能干。
第三,系統(tǒng)干任何事情,都要足夠?qū)I(yè)而高效。我們通常說“專業(yè)的人做專業(yè)的事”。言下之意就是說:專業(yè)的人只能做本專業(yè)的事情,而通才則意味著在每個領(lǐng)域都不夠高效。那么復(fù)雜計算的系統(tǒng),則要求:既通又專(啥都能干,干啥都高效)。
第四,系統(tǒng)要“三頭六臂”,同時能做好千千萬不同領(lǐng)域和場景、不同客戶訴求的工作。
第五,系統(tǒng)提供的算力等資源無處不在,唾手可得。在用戶最需要的地方,最需要的時刻,隨叫隨到;并且,以最合適的形態(tài),最合適的方式出現(xiàn);還給用戶創(chuàng)造更多的價值,給用戶更好的體驗。
最后,關(guān)鍵的一點,系統(tǒng)要持續(xù)演進,適應(yīng)用戶需求的快速變化。
當(dāng)然,這并不是說單個芯片的能力能夠支撐如此強大的系統(tǒng)。而是要發(fā)揮數(shù)以千計萬計的個體芯片協(xié)同甚至融合的能力,來共同支撐宏觀大系統(tǒng)的更強大的能力。
4 復(fù)雜計算的定義
復(fù)雜計算的定義:①基于一組硬件集群,②運行多系統(tǒng)集群的、 ③動態(tài)的、 ④交叉混合計算。展開說明:
單個硬件支持多個不同規(guī)格系統(tǒng)的計算;
單個硬件集群支持多個系統(tǒng)集群的計算,并且系統(tǒng)集群交叉混布;
數(shù)以萬計甚至百萬級的計算設(shè)備規(guī)模,完全動態(tài)的、非常頻繁的軟硬件配置變更;
硬件需要足夠的一致性(盡可能少的型號和規(guī)格),在一致性硬件基礎(chǔ)上實現(xiàn)軟件平臺的差異性;
盡可能滿足所有場景的、足夠通用的、綜合性的計算平臺和系統(tǒng)。
5 復(fù)雜計算的場景
5.1 從云計算來,到云網(wǎng)邊端去
云計算行業(yè)的朋友,看到復(fù)雜系統(tǒng)和復(fù)雜計算的概念,肯定會說,這不就是云計算嗎?沒錯,復(fù)雜計算的確是從云計算的基礎(chǔ)特征中提取出來的。
云計算的這些基礎(chǔ)的特征,在邊緣計算、軟件定義的網(wǎng)絡(luò)計算、超級終端計算等場景,都有類似的特征存在。
我們試圖歸納總結(jié)這些特征,把它提煉成復(fù)雜計算這個概念,用這個概念:
從個體視角看,指導(dǎo)底層的芯片的功能定義和系統(tǒng)架構(gòu)的設(shè)計;
從宏觀視角看,指導(dǎo)宏觀算力資源和其他相關(guān)資源的統(tǒng)籌,為全局資源的池化、編排等提供能力支持,并且進一步提升宏觀算力的利用率。
5.2 云計算場景
云計算主要是由IaaS、PaaS和SaaS組成的分層服務(wù)體系。云計算的各種XaaS服務(wù),本質(zhì)上是系統(tǒng)堆棧逐步由云運營商接管的過程。用戶只需要關(guān)心自己最核心的應(yīng)用/功能即可。
5.3 邊緣計算場景
CDN(Content Delivery Network,內(nèi)容分發(fā)網(wǎng)絡(luò))是一種利用最靠近用戶的服務(wù)器,更快、更可靠地將音樂、圖片、視頻、應(yīng)用程序及其他文件發(fā)送給用戶,提供高性能、可擴展性及低成本的網(wǎng)絡(luò)內(nèi)容傳遞服務(wù)。
邊緣計算和CDN有很多相似之處,均通過DNS修改調(diào)用地址,提供類似緩存的機制,做到客戶端無感。
CDN和邊緣計算的本質(zhì)區(qū)別在于:
CDN是只讀模式,不管是服務(wù)器推送靜態(tài)內(nèi)容或者動態(tài)內(nèi)容;
邊緣計算同樣需要支持多租戶多系統(tǒng)運行,其系統(tǒng)堆棧跟云端有一定相似(可復(fù)用)之處。
5.4 超級終端場景
北京時間2022年9月21凌晨,NVIDIA GTC 2022秋季發(fā)布會上,CEO黃仁勛發(fā)布了其2024年將推出的自動駕駛芯片。因為其2000TFLOPS的性能過于強大,英偉達索性直接把它全新命名為Thor,代替了之前1000TOPS的Altan。
Thor SoC能夠?qū)崿F(xiàn)多域計算,它可以為自動駕駛和車載娛樂劃分任務(wù)。通常,這些各種類型的功能由分布在車輛各處的數(shù)十個控制單元控制。制造商可以利用Thor實現(xiàn)所有功能的融合,來整合整個車輛,而不是依賴這些分布式的ECU/DCU。
超級終端與傳統(tǒng)終端最大的區(qū)別在于:支持虛擬化,支持多系統(tǒng)運行,支持微服務(wù)。手機、平板、個人電腦等傳統(tǒng)AP是一個系統(tǒng):部署好OS,上面運行各種應(yīng)用,軟件附屬于硬件而存在。而自動駕駛等超級終端,需要通過虛擬化將硬件切分成不同規(guī)格,供不同形態(tài)的多個系統(tǒng)運行,并且各個系統(tǒng)之間需要做到環(huán)境、應(yīng)用、數(shù)據(jù)、性能、故障、安全等方面的隔離。
自動駕駛汽車,通常需要支持五個主要的功能域,包括:動力域、車身域、自動駕駛域、底盤域、信息娛樂域,每個域會占用一個或多個VM。
5.5 未來,更多的場景需要復(fù)雜計算
芯片工藝越來越先進,能支撐的系統(tǒng)規(guī)模越來越大;上層的軟件應(yīng)用,層出不窮,已有的應(yīng)用持續(xù)快速演進。系統(tǒng)從單個系統(tǒng)變成了多個系統(tǒng)混合甚至融合的復(fù)雜系統(tǒng)。
系統(tǒng)越來越復(fù)雜,支持系統(tǒng)計算的硬件也越來越復(fù)雜;復(fù)雜的系統(tǒng)越多,需要復(fù)雜計算覆蓋的場景也就越多。
6 復(fù)雜計算的挑戰(zhàn)
底層計算的資源主要是CPU、內(nèi)存、網(wǎng)絡(luò)和存儲等I/O,以及GPU、DSA等加速器。復(fù)雜計算的核心挑戰(zhàn)在于:如何把種類繁多并且架構(gòu)/接口不一致的資源匯集成池。
個體的硬件,需要支持非常好的擴展性。個體硬件包括各種異構(gòu)的處理器資源,可以形成小的資源池;并且支持數(shù)以萬計的個體資源連成一片,形成更大的資源池。
硬件個體需要支持系統(tǒng)的連接和融合,根據(jù)程度的高低,分為四個階段:
階段一,孤島。所有設(shè)備各自獨立的工作;
階段二,互聯(lián)。把設(shè)備連到一起,設(shè)備和設(shè)備之間可以通信;
階段三,協(xié)同。C/S架構(gòu)是典型的協(xié)同;有了協(xié)同,也就有了云網(wǎng)邊端。
階段四,融合。協(xié)同通常是靜態(tài)的,隨著時間推移,初始任務(wù)劃分不一定能適應(yīng)系統(tǒng)的發(fā)展;融合代表著動態(tài)以及更多自適應(yīng)性;協(xié)同代表著多個系統(tǒng)的協(xié)同,而融合代表了多個系統(tǒng)融合成一個大系統(tǒng)。
站在宏觀大系統(tǒng)的視角,云服務(wù)器、邊緣服務(wù)器、終端設(shè)備,以及網(wǎng)絡(luò)設(shè)備,都是一致性的硬件。通過軟件編排,選擇盡可能最優(yōu)的資源,組成最適合軟件運行的邏輯平臺。
算力芯片是水滴,算力網(wǎng)絡(luò)是海洋。我們要思考的是,這滴水如何設(shè)計的更好,更好地融入到這片海洋,讓海洋更加浩瀚宏大。
審核編輯:劉清
-
加速器
+關(guān)注
關(guān)注
2文章
823瀏覽量
38907 -
DSA
+關(guān)注
關(guān)注
0文章
51瀏覽量
15484 -
CDN
+關(guān)注
關(guān)注
0文章
328瀏覽量
29494 -
vpc
+關(guān)注
關(guān)注
0文章
17瀏覽量
8570
原文標題:什么是復(fù)雜計算?
文章出處:【微信號:bdtdsj,微信公眾號:中科院半導(dǎo)體所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
航空復(fù)雜曲面工件泓川科技激光位移測量機器人自動定位打磨系統(tǒng)實施過程解析
連接器如何支撐無人機復(fù)雜系統(tǒng)運作?

VirtualLab Fusion應(yīng)用:具有二維出瞳擴展和人眼模型復(fù)雜光波導(dǎo)系統(tǒng)
讓復(fù)雜的層次圖更清楚

AN119A-使用高度集成的DC/DC uModule穩(wěn)壓器系統(tǒng)為基于FPGA的復(fù)雜系統(tǒng)供電

AN119B-使用高度集成的DC/DC uModule穩(wěn)壓器系統(tǒng)為基于FPGA的復(fù)雜系統(tǒng)供電

復(fù)雜光波導(dǎo)器件中控制MTF分析的精度和速度間的平衡
多通道相參復(fù)雜調(diào)制信號產(chǎn)生系統(tǒng)

業(yè)務(wù)復(fù)雜度治理方法論--十年系統(tǒng)設(shè)計經(jīng)驗總結(jié)

為什么電路要設(shè)計得這么復(fù)雜?
CISC(復(fù)雜指令集)與RISC(精簡指令集)的區(qū)別
復(fù)雜電磁環(huán)境模擬系統(tǒng)設(shè)計方案
分庫分表后復(fù)雜查詢的應(yīng)對之道:基于DTS實時性ES寬表構(gòu)建技術(shù)實踐

評論