IBM 近日提出的全新芯片設(shè)計可以通過在數(shù)據(jù)存儲的位置執(zhí)行計算來加速全連接神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。研究人員稱,這種「芯片」可以達到 GPU 280 倍的能源效率,并在同樣面積上實現(xiàn) 100 倍的算力。該研究的論文已經(jīng)發(fā)表在上周出版的 Nature 期刊上。
在最近發(fā)表在Nature上的一篇論文中,IBM Research AI團隊用大規(guī)模的模擬存儲器陣列訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN),達到了與GPU相當(dāng)?shù)木取Q芯咳藛T相信,這是在下一次AI突破所需要的硬件加速器發(fā)展道路上邁出的重要一步。
未來人工智能將需要大規(guī)模可擴展的計算單元,無論是在云端還是在邊緣,DNN都會變得更大、更快,這意味著能效必須顯著提高。雖然更好的GPU或其他數(shù)字加速器能在某種程度上起到幫助,但這些系統(tǒng)都不可避免地在數(shù)據(jù)的傳輸,也就是將數(shù)據(jù)從內(nèi)存?zhèn)鞯接嬎闾幚韱卧缓蠡貍魃匣ㄙM大量的時間和能量。
模擬技術(shù)涉及連續(xù)可變的信號,而不是二進制的0和1,對精度具有內(nèi)在的限制,這也是為什么現(xiàn)代計算機一般是數(shù)字型的。但是,AI研究人員已經(jīng)開始意識到,即使大幅降低運算的精度,DNN模型也能運行良好。因此,對于DNN來說,模擬計算有可能是可行的。
但是,此前還沒有人給出確鑿的證據(jù),證明使用模擬的方法可以得到與在傳統(tǒng)的數(shù)字硬件上運行的軟件相同的結(jié)果。也就是說,人們還不清楚DNN是不是真的能夠通過模擬技術(shù)進行高精度訓(xùn)練。如果精度很低,訓(xùn)練速度再快、再節(jié)能,也沒有意義。
在IBM最新發(fā)表的那篇Nature論文中,研究人員通過實驗,展示了模擬非易失性存儲器(NVM)能夠有效地加速反向傳播(BP)算法,后者是許多最新AI進展的核心。這些NVM存儲器能讓BP算法中的“乘-加”運算在模擬域中并行。
研究人員將一個小電流通過一個電阻器傳遞到一根導(dǎo)線中,然后將許多這樣的導(dǎo)線連接在一起,使電流聚集起來,就實現(xiàn)了大量計算的并行。而且,所有這些都在模擬存儲芯片內(nèi)完成,不需要數(shù)字芯片里數(shù)據(jù)在存儲單元和和處理單元之間傳輸?shù)倪^程。
IBM的大規(guī)模模擬存儲器陣列,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)達到了GPU的精度
(圖片來源:IBM Research)
由于當(dāng)前NVM存儲器的固有缺陷,以前的相關(guān)實驗都沒有在DNN圖像分類任務(wù)上得到很好的精度。但這一次,IBM的研究人員使用創(chuàng)新的技術(shù),改善了很多不完善的地方,將性能大幅提升,在各種不同的網(wǎng)絡(luò)上,都實現(xiàn)了與軟件級的DNN精度。
單獨看這個大規(guī)模模擬存儲器陣列里的一個單元,由相變存儲器(PCM)和CMOS電容組成,PCM放長期記憶(權(quán)重),短期的更新放在CMOS電容器里,之后再通過特殊的技術(shù),消除器件與器件之間的不同。研究人員表示,這種方法是受了神經(jīng)科學(xué)的啟發(fā),使用了兩種類型的“突觸”:短期計算和長期記憶。
這些基于NVM的芯片在訓(xùn)練全連接層方面展現(xiàn)出了極強的潛力,在計算能效 (28,065 GOP/sec/W) 和通量(3.6 TOP/sec/mm^2)上,超過了當(dāng)前GPU的兩個數(shù)量級。
這項研究表明了,基于模擬存儲器的方法,能夠?qū)崿F(xiàn)與軟件等效的訓(xùn)練精度,并且在加速和能效上有數(shù)量級的提高,為未來設(shè)計全新的AI芯片奠定了基礎(chǔ)。研究人員表示,他們接下來將繼續(xù)優(yōu)化,處理全連接層和其他類型的計算。
-
IBM
+關(guān)注
關(guān)注
3文章
1821瀏覽量
75813 -
存儲器
+關(guān)注
關(guān)注
38文章
7650瀏覽量
167363 -
AI芯片
+關(guān)注
關(guān)注
17文章
1983瀏覽量
35906
原文標(biāo)題:GGAI 前沿 | IBM全新AI芯片設(shè)計登上Nature:算力是GPU的100倍
文章出處:【微信號:ggservicerobot,微信公眾號:高工智能未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點分析
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型
深度學(xué)習(xí)入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實現(xiàn)
卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)工具與框架
卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較
深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型
LSTM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)準(zhǔn)備方法
關(guān)于卷積神經(jīng)網(wǎng)絡(luò),這些概念你厘清了么~
【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNN神經(jīng)網(wǎng)絡(luò)算法開發(fā)環(huán)境搭建
FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用
分享幾個用FPGA實現(xiàn)的小型神經(jīng)網(wǎng)絡(luò)

評論