免费高清欧美一级A片理论,一个色福利导航,sese五月天

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）去年年底，多家大廠爆出開發(fā)數(shù)據(jù)中心 ASIC芯片的消息，包括傳聞蘋果與博通合作開發(fā)面向AI推理的ASIC，亞馬遜也在年底公布了其AIASIC的應(yīng)用實(shí)例，展示出ASIC的應(yīng)用性價(jià)比遠(yuǎn)超GPU，加上博通財(cái)報(bào)AI業(yè)務(wù)同比大增220%，掀起了AI推理端的ASIC熱潮。

那么ASIC跟傳統(tǒng)的GPU有哪些區(qū)別，開發(fā)上又有哪些流程上的不同？

ASIC和GPU

通用GPU在設(shè)計(jì)之初就為了適配更多使用場(chǎng)景，在AI應(yīng)用上，GPU支持訓(xùn)練、推理、通用計(jì)算等全流程，以英偉達(dá)GPU為例，通過(guò)CUDA生態(tài)，英偉達(dá)GPU能夠快速適配新的算法，比如從Transformer到CNN的遷移，只需要修改30%左右的代碼。

相比通用GPU，ASIC是專為滿足特定應(yīng)用而設(shè)計(jì)的芯片，針對(duì)特定應(yīng)用的特定算法進(jìn)行硬件級(jí)別的優(yōu)化，尤其在AI應(yīng)用中，比如運(yùn)行矩陣乘法、張量計(jì)算等任務(wù)，能夠相比GPU效率更高。

比如谷歌TPU就是一款A(yù)SIC，采用脈動(dòng)陣列設(shè)計(jì)，通過(guò)固化數(shù)據(jù)流水線減少內(nèi)存訪問(wèn)次數(shù)，能效比達(dá)GPU的3.2倍。

相比之下GPU使用通用計(jì)算單元處理多種任務(wù)，為了滿足不同類型的計(jì)算需求，必然需要存在計(jì)算冗余。

GPU由于架構(gòu)的特性，一般會(huì)在AI計(jì)算中保留圖形渲染、視頻編解碼等功能模塊，但在AI計(jì)算中這些模塊大部分處于閑置狀態(tài)。有研究指出，英偉達(dá)H100GPU上有大約15%的晶體管是未在AI計(jì)算過(guò)程中被使用的。

同時(shí)，在計(jì)算流程上，GPU在處理AI計(jì)算任務(wù)時(shí)是需要通過(guò)CUDA軟件棧進(jìn)行任務(wù)調(diào)度，比如矩陣乘法的運(yùn)行時(shí)需要經(jīng)過(guò)內(nèi)存加載、指令分發(fā)、TensorCore計(jì)算、結(jié)果回寫等多個(gè)步驟。

而在ASIC上，可以通過(guò)硬件級(jí)的流水線固化數(shù)據(jù)流，能夠減少計(jì)算流程步驟，提高運(yùn)算效率。在減少計(jì)算流程的同時(shí)，ASIC對(duì)內(nèi)存訪問(wèn)模式的優(yōu)化，還能有助于降低內(nèi)存控制器的功耗。

AI計(jì)算中，低精度是以損失部分準(zhǔn)確率為代價(jià)，通過(guò)量化壓縮數(shù)據(jù)來(lái)提高推理速度。目前AI推理中INT8/FP16的精度，GPU一般支持FP32/FP64等高精度計(jì)算，在混合精度訓(xùn)練中，GPU還需要額外的顯存來(lái)轉(zhuǎn)換成低精度結(jié)果，同樣的芯片，在運(yùn)行高精度和低精度的算力也不同。

盡管精度的選擇本質(zhì)上是準(zhǔn)確性和效率的取舍，但AI推理等應(yīng)用中，對(duì)精度的需求并不需要極致的接近100%，但仍能保持較高的水準(zhǔn)。ASIC一般直接支持低精度計(jì)算，在AI計(jì)算時(shí)的效率能夠相比GPU大幅提高，但保持一定的準(zhǔn)確率。比如有數(shù)據(jù)顯示，TikTok的推薦算法系統(tǒng)采用INT8精度，但依然保持了接近99%的推薦準(zhǔn)確率。

所以，ASIC相比GPU，在硬件架構(gòu)上可以針對(duì)專有應(yīng)用進(jìn)行特定優(yōu)化，提高計(jì)算效率和降低功耗。在成本方面，ASIC在規(guī)模量產(chǎn)的情況下可以降至GPU的三分之一，但前期開發(fā)成本仍不能忽視。

可能大家也發(fā)現(xiàn)，目前定制開發(fā)高算力ASIC的廠商，無(wú)一例外是云計(jì)算大廠，本身公司業(yè)務(wù)就有極大規(guī)模的算力需求。ASIC定制費(fèi)用，主要是開發(fā)過(guò)程中的一次性工程費(fèi)用，也被業(yè)內(nèi)稱為NRE（Non-RecurringEngineering）。顧名思義，NRE費(fèi)用只需要支出一次，后續(xù)規(guī)模生產(chǎn)中不需要再增加這部分費(fèi)用。

NRE費(fèi)用中，包含芯片設(shè)計(jì)的成本，比如研發(fā)人員薪酬、EDA工具授權(quán)費(fèi)等，這與芯片使用的制程工藝、芯片本身的復(fù)雜程度相關(guān)；然后是版圖設(shè)計(jì)成本，其實(shí)這里的概念跟芯片設(shè)計(jì)的成本類似，主要是涉及芯片的物理布局設(shè)計(jì)，需要特定的研發(fā)人員和軟件支持；再是IP授權(quán)費(fèi)用，一般是一些通用的IP，比如CPUIP、內(nèi)存控制器、接口IP等。

以定制一款采用5nm制程的ASIC為例，NRE費(fèi)用可以高達(dá)1億至2億美元。然而一旦能夠大規(guī)模出貨，NRE費(fèi)用就可以很大程度上被攤薄。

此前有業(yè)內(nèi)人士分析，中等復(fù)雜程度的ASIC盈虧平衡點(diǎn)在10萬(wàn)片左右，這對(duì)于很多廠商來(lái)說(shuō)已經(jīng)是遙不可及。

ASIC開發(fā)流程

在開發(fā)ASIC時(shí)，最關(guān)鍵的是以算法架構(gòu)為主導(dǎo)，圍繞這一方面去進(jìn)行其他工作。

首先是進(jìn)行需求定義，要明確ASIC的目標(biāo)場(chǎng)景是什么，比如推理還是訓(xùn)練？端側(cè)還是云端？用到CNN還是Transformer？在AI領(lǐng)域，定制ASIC的往往是云計(jì)算大廠，這些廠商一般會(huì)有頂尖的架構(gòu)師去進(jìn)行充分考慮，未來(lái)可能的應(yīng)用、效率、成本、技術(shù)可行性等都會(huì)包含在內(nèi)，同時(shí)平衡性能、成本、功耗等關(guān)鍵指標(biāo)。當(dāng)然也有一些芯片廠商推出針對(duì)某些應(yīng)用場(chǎng)景的ASIC產(chǎn)品。那么在前期產(chǎn)品定義就十分關(guān)鍵，有時(shí)候還需要開發(fā)針對(duì)應(yīng)用場(chǎng)景的算法配合自己的芯片產(chǎn)品使用。

接下來(lái)是最關(guān)鍵的算法和架構(gòu)優(yōu)化，需要對(duì)行業(yè)發(fā)展趨勢(shì)有足夠認(rèn)知，選擇適合的算法進(jìn)行優(yōu)化，保證算法與硬件架構(gòu)適配，通過(guò)仿真測(cè)試驗(yàn)證。

然后設(shè)計(jì)ASIC的整體架構(gòu)，比如功能模塊的劃分和模塊之間的互連，以及接口等IP的使用。

在前端設(shè)計(jì)中，使用VHDL或Verilog等硬件描述語(yǔ)言對(duì)設(shè)計(jì)進(jìn)行編碼，然后將編碼轉(zhuǎn)換為門級(jí)網(wǎng)表，對(duì)其進(jìn)行優(yōu)化滿足芯片面積和性能要求。

進(jìn)入后端設(shè)計(jì)后，需要將門級(jí)網(wǎng)表映射到具體的芯片物理結(jié)構(gòu)上，進(jìn)行布局和布線。

完成模塊布局和布線后，就可以開始進(jìn)行FPGA驗(yàn)證，測(cè)試ASIC設(shè)計(jì)的功能是否滿足需求。隨后完成流片、測(cè)試后就可以投入大規(guī)模生產(chǎn)。

總的來(lái)說(shuō)，ASIC的開發(fā)中，硬件和軟件的協(xié)同是其成功的關(guān)鍵，在擁有強(qiáng)大的芯片性能同時(shí)，還要筑建完整的軟件生態(tài)，吸引更多用戶使用。

當(dāng)然，在ASIC量產(chǎn)進(jìn)入市場(chǎng)后，軟件棧開發(fā)也是相當(dāng)重要的，需要編譯器將TensorFlow和PyTorch等機(jī)器學(xué)習(xí)模型映射到硬件指令上，在生態(tài)上也需要支持更多主流的框架，以盡可能滿足更多使用需求。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴