(文章來源:百家號(hào))
人工智能芯片目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu),加速硬件計(jì)算能力,主要以 3 種類型的芯片為代表,即 GPU、 FPGA、 ASIC,但 CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計(jì)算架構(gòu),采用類腦神經(jīng)結(jié)構(gòu)來提升計(jì)算能力, 以 IBM TrueNorth 芯片為代表。GPU 作為最早從事并行加速計(jì)算的處理器,相比 CPU 速度快, 同時(shí)比其他加速器芯片編程靈活簡單。
程序在 GPU系統(tǒng)上的運(yùn)行速度相較于單核 CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá)、 AMD 等公司不斷推進(jìn)其對(duì) GPU 大規(guī)模并行架構(gòu)的支持,面向通用計(jì)算的 GPU(即GPGPU, GENERAL PURPOSE GPU,通用計(jì)算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段,GPU 的發(fā)展歷程可分為 3 個(gè)階段:
第一代GPU(1999年以前 ) , 部分功能從CPU分離 , 實(shí)現(xiàn)硬件加速 , 以GE(GEOMETRY ENGINE)為代表,只能起到 3D 圖像處理的加速作用,不具有軟件編程特性。
第二代 GPU(1999-2005 年), 實(shí)現(xiàn)進(jìn)一步的硬件加速和有限的編程性。1999年,英偉達(dá)發(fā)布了“專為執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計(jì)算的” GeForce256 圖像處理芯片,將更多的晶體管用作執(zhí)行單元, 而不是像 CPU 那樣用作復(fù)雜的控制單元和緩存,將 T&L (TRANSFORM AND LIGHTING) 等功能從 CPU 分離出來,實(shí)現(xiàn)了快速變換,這成為 GPU 真正出現(xiàn)的標(biāo)志。
之后幾年, GPU 技術(shù)快速發(fā)展,運(yùn)算速度迅速超過 CPU。2001 年英偉達(dá)和 ATI 分別推出的GEFORCE3 和 RADEON 8500,圖形硬件的流水線被定義為流處理器,出現(xiàn)了頂點(diǎn)級(jí)可編程性,同時(shí)像素級(jí)也具有有限的編程性,但 GPU 的整體編程性仍然比較有限。
第三代 GPU(2006年以后), GPU實(shí)現(xiàn)方便的編程環(huán)境創(chuàng)建, 可以直接編寫程序。2006年英偉達(dá)與 ATI分別推出了 CUDA (Compute United Device Architecture,計(jì)算統(tǒng)一設(shè)備架構(gòu))編程環(huán)境和 CTM(CLOSE TO THE METAL)編程環(huán)境, 使得 GPU 打破圖形語言的局限成為真正的并行數(shù)據(jù)處理超級(jí)加速器。
2008年,蘋果公司提出一個(gè)通用的并行計(jì)算編程平臺(tái) OPENCL(OPEN COMPUTING LANGUAGE,開放運(yùn)算語言),與CUDA綁定在英偉達(dá)的顯卡上不同,OPENCL 和具體的計(jì)算設(shè)備無關(guān)。
目前, GPU 已經(jīng)發(fā)展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 TWITTER 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件,以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。此外,很多汽車生產(chǎn)商也在使用 GPU 芯片發(fā)展無人駕駛。不僅如此, GPU 也被應(yīng)用于VR/AR 相關(guān)的產(chǎn)業(yè)。
但是 GPU也有一定的局限性。深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分, GPU 平臺(tái)在算法訓(xùn)練上非常高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候,并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來。
FPGA 是在 PAL、 GAL、 CPLD 等可編程器件基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。用戶可以通過燒入 FPGA 配置文件來定義這些門電路以及存儲(chǔ)器之間的連線。這種燒入不是一次性的,比如用戶可以把 FPGA 配置成一個(gè)微控制器 MCU,使用完畢后可以編輯配置文件把同一個(gè)FPGA 配置成一個(gè)音頻編解碼器。因此, 它既解決了定制電路靈活性的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。
FPGA 可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算,在處理特定應(yīng)用時(shí)有更加明顯的效率提升。對(duì)于某個(gè)特定運(yùn)算,通用 CPU 可能需要多個(gè)時(shí)鐘周期;而 FPGA 可以通過編程重組電路,直接生成專用電路,僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。
此外,由于 FPGA的靈活性,很多使用通用處理器或 ASIC難以實(shí)現(xiàn)的底層硬件控制操作技術(shù), 利用 FPGA 可以很方便的實(shí)現(xiàn)。這個(gè)特性為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。同時(shí) FPGA 一次性成本(光刻掩模制作成本)遠(yuǎn)低于 ASIC,在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定, 需要不斷迭代改進(jìn)的情況下,利用 FPGA 芯片具備可重構(gòu)的特性來實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇之一。
功耗方面,從體系結(jié)構(gòu)而言, FPGA 也具有天生的優(yōu)勢(shì)。傳統(tǒng)的馮氏結(jié)構(gòu)中,執(zhí)行單元(如 CPU 核)執(zhí)行任意指令,都需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器及分支跳轉(zhuǎn)處理邏輯參與運(yùn)行, 而 FPGA 每個(gè)邏輯單元的功能在重編程(即燒入)時(shí)就已經(jīng)確定,不需要指令,無需共享內(nèi)存,從而可以極大的降低單位執(zhí)行的功耗,提高整體的能耗比。
目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求,主要采用 GPU、 FPGA 等已有的適合并行計(jì)算的通用芯片來實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒有大規(guī)模興起之時(shí),使用這類已有的通用芯片可以避免專門研發(fā)定制芯片(ASIC)的高投入和高風(fēng)險(xiǎn)。但是,由于這類通用芯片設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí),因而天然存在性能、 功耗等方面的局限性。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大,這類問題日益突顯。
深度學(xué)習(xí)算法穩(wěn)定后, AI 芯片可采用 ASIC 設(shè)計(jì)方法進(jìn)行全定制, 使性能、功耗和面積等指標(biāo)面向深度學(xué)習(xí)算法做到最優(yōu)。
(責(zé)任編輯:fqj)
-
芯片技術(shù)
+關(guān)注
關(guān)注
1文章
163瀏覽量
18057 -
AI
+關(guān)注
關(guān)注
88文章
34870瀏覽量
277640
發(fā)布評(píng)論請(qǐng)先 登錄
關(guān)鍵技術(shù)突破!國內(nèi)首個(gè)光子芯片中試線成功下線首片晶圓
B11 BMS分類架構(gòu)及關(guān)鍵技術(shù)from: 中敏老唐
電機(jī)系統(tǒng)節(jié)能關(guān)鍵技術(shù)及展望
淺談華為通信大模型的關(guān)鍵技術(shù)
智能交通的關(guān)鍵技術(shù)支撐
4054充電芯片IC:鋰電池充電管理的關(guān)鍵技術(shù)與應(yīng)用全覽

國產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)

評(píng)論