從應(yīng)用特征來(lái)看,可以把應(yīng)用分為“IO密集型”和“計(jì)算密集型”兩類(lèi),如下圖所示。IO密集型應(yīng)用,通常體現(xiàn)為較高的輸入和輸出帶寬,數(shù)據(jù)直接來(lái)自于IO,數(shù)據(jù)通常具備流式特征,數(shù)據(jù)局部性不顯著,如果處理性能與帶寬匹配,片上緩存的作用就可以弱化。例如處理路由轉(zhuǎn)發(fā)、數(shù)據(jù)加密、壓縮等。計(jì)算密集型應(yīng)用,體現(xiàn)為較高的計(jì)算密度,通常浮點(diǎn)性能突出,數(shù)據(jù)來(lái)自主存,數(shù)據(jù)局部性顯著,復(fù)用性高,主存的大小對(duì)于問(wèn)題求解的性能有直接影響。例如求解線性代數(shù)方程組,大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練、推理等。

圖不同類(lèi)型的處理器的特征結(jié)構(gòu)
一個(gè)處理器芯片是“IO密集”還是“計(jì)算密集”只部分決定了芯片的結(jié)構(gòu)特征,并不能完全定義芯片的主體架構(gòu)。無(wú)論是IO密集,還是計(jì)算密集,即可以以通用CPU為核心構(gòu)造主體計(jì)算架構(gòu),也可以以專(zhuān)用加速器為核心構(gòu)造主體計(jì)算架構(gòu)。前者可稱(chēng)之為以控制為中心(control-centric)的模式,后者稱(chēng)之為以數(shù)據(jù)為中心(data-centric)的模式。控制為中心的核心是實(shí)現(xiàn)“通用”,數(shù)據(jù)為中心的核心是通過(guò)定制化實(shí)現(xiàn)“高性能”。以應(yīng)用特征和架構(gòu)特征這兩個(gè)維度粗略劃分處理器芯片類(lèi)型分布,如圖2-1所示。
通用CPU是偏向于控制為中心結(jié)構(gòu),理論上看就是要“圖靈完備”,要支持完備的指令集,通過(guò)編程指令序列來(lái)定義計(jì)算任務(wù),通過(guò)執(zhí)行指令序列來(lái)完成計(jì)算任務(wù),因此具備極其靈活的編程支持,可以任意定義計(jì)算的邏輯實(shí)現(xiàn)“通用”——這也是CPU最大的優(yōu)勢(shì)。同時(shí),為了提高編程的開(kāi)發(fā)效率,降低編譯器復(fù)雜度,緩存管理和細(xì)粒度并行度的開(kāi)發(fā)通常都是由硬件來(lái)完成。類(lèi)似的,還有大量的用于各種嵌入式、移動(dòng)設(shè)備的微控制器MCU,并不強(qiáng)調(diào)高帶寬,也是以控制為中心的結(jié)構(gòu)。NP,DSP也是便向于基于通用處理器來(lái)做專(zhuān)用化擴(kuò)展,但是非常注重高通量的性能屬性。例如,NP要支持?jǐn)?shù)Tbps的轉(zhuǎn)發(fā)帶寬,所以大體可以視為控制為中心、但是IO密集的處理器類(lèi)型。
GPU是以數(shù)據(jù)為中心的結(jié)構(gòu),形式上更傾向于專(zhuān)用加速器。GPU的結(jié)構(gòu)稱(chēng)之為數(shù)據(jù)并行(data-parallel)結(jié)構(gòu),優(yōu)化指令并行度并不是提升性能的重點(diǎn),通過(guò)大規(guī)模同構(gòu)核進(jìn)行細(xì)粒度并行來(lái)消化大的數(shù)據(jù)帶寬才是重點(diǎn)。例如,最新的NVIDIA TITAN RTX GPU有4608個(gè)CUDA核、576個(gè)Tensor核,而且單片GPU通常配置數(shù)十GB的超大顯存。同時(shí)緩存管理多采用軟件顯示管理,降低硬件復(fù)雜度。這類(lèi)超眾核結(jié)構(gòu)是以數(shù)據(jù)為中心、執(zhí)行計(jì)算密集型任務(wù)的代表性架構(gòu)。
DPU也偏向于數(shù)據(jù)為中心的結(jié)構(gòu),形式上集成了更多類(lèi)別的專(zhuān)用加速器,犧牲一定的指令靈活性以獲得更極致的性能。但是與GPU不同,DPU要應(yīng)對(duì)更多的網(wǎng)絡(luò)IO,既包括外部以太網(wǎng),也包括內(nèi)部虛擬IO,所以DPU所面臨的數(shù)據(jù)并行更多可能是數(shù)據(jù)包并行,而不是圖像中的像素、像塊級(jí)并行。而且DPU也會(huì)配置少數(shù)通用核(如ARM,MIPS)來(lái)處理一定的控制面的任務(wù),運(yùn)行輕量級(jí)操作系統(tǒng)來(lái)管理DPU上的眾多的異構(gòu)核資源,所以體現(xiàn)了一定“通用”性,但性能優(yōu)勢(shì)主要不源于這些通用核,而是大量專(zhuān)用計(jì)算核。早期的一些網(wǎng)絡(luò)處理器采用過(guò)類(lèi)似Tile64的通用眾核結(jié)構(gòu),以增加核的數(shù)量來(lái)應(yīng)對(duì)多路處理的數(shù)據(jù),實(shí)現(xiàn)并發(fā)處理,但單路延遲性能通常都比較差。因此,DPU更偏向于以數(shù)據(jù)為中心,執(zhí)行IO密集任務(wù)。
DPU是軟件定義的技術(shù)路線下的重要產(chǎn)物。在軟件定義網(wǎng)絡(luò)中,將數(shù)據(jù)面與控制面分離是最核心的思想。DPU被定義為強(qiáng)化了數(shù)據(jù)面性能的專(zhuān)用處理器,配合控制面的CPU,可以實(shí)現(xiàn)性能與通用性的更佳的平衡。
來(lái)源:專(zhuān)用數(shù)據(jù)處理器(DPU)技術(shù)白皮書(shū),中國(guó)科學(xué)院計(jì)算技術(shù)研究所,鄢貴海等
-
DPU
+關(guān)注
關(guān)注
0文章
390瀏覽量
24711
發(fā)布評(píng)論請(qǐng)先 登錄
DPU232—高度集成USB到UART橋接控制器 國(guó)產(chǎn)替代方案
帶專(zhuān)用協(xié)議硬件 + R-IN引擎的微處理器RZ/N1L系列數(shù)據(jù)手冊(cè)

恩智浦i.MX 94應(yīng)用處理器如何變革工業(yè)和汽車(chē)連接

《金融街午餐會(huì)》年終特別節(jié)目——新質(zhì)生產(chǎn)力大路演,“數(shù)據(jù)搬運(yùn)高手”DPU如何打破AI時(shí)代算力瓶頸?
RK3566高性能低功耗四核應(yīng)用處理器數(shù)據(jù)手冊(cè)
安謀科技發(fā)布“玲瓏”DPU和新一代VPU
OMAP5912應(yīng)用處理器數(shù)據(jù)表

中科馭數(shù)分析DPU在云原生網(wǎng)絡(luò)與智算網(wǎng)絡(luò)中的實(shí)際應(yīng)用
IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書(shū)
中科馭數(shù):DPU是構(gòu)建高效智算中心基礎(chǔ)設(shè)施的必選項(xiàng)
中科馭數(shù)發(fā)布第三代DPU芯片K2 Pro,較上一代能耗降低30%
中科馭數(shù)CEO鄢貴海:從計(jì)算系統(tǒng)的三個(gè)視角重新審視DPU的核心價(jià)值

芯片軟件全上陣 DPU“全家桶”來(lái)了!中科馭數(shù)成功舉辦2024產(chǎn)品發(fā)布會(huì)

評(píng)論