01. AI大算力芯片的“出奇”想法
在最近由AspenCore主辦的2023中國IC領(lǐng)袖峰會(huì)上,中國半導(dǎo)體行業(yè)協(xié)會(huì)IC設(shè)計(jì)分會(huì)理事長魏少軍教授在《集成電路發(fā)展中的“正”與“奇”》的主題演講中提到,中國半導(dǎo)體產(chǎn)業(yè)的發(fā)展要在“守正”的市場發(fā)展道路上穩(wěn)步前行,同時(shí)也需要在新的賽道“出奇”。比如在高性能計(jì)算領(lǐng)域,在先進(jìn)工藝、技術(shù)和芯片產(chǎn)品受到外界限制的情況下,我們?nèi)绾卫脟a(chǎn)工藝技術(shù)實(shí)現(xiàn)創(chuàng)新而跟全球高性能計(jì)算和AI發(fā)展保持同步甚至超越?更具體一點(diǎn),就目前炒作火熱的AIGC大模型所需要的大算力AI芯片來說,能否利用我們現(xiàn)在可用的工藝和技術(shù)來開發(fā)在性能上可以跟英偉達(dá)GPGPU對標(biāo)的AI芯片呢?一些“守正且出奇”的技術(shù)包括:軟件定義芯片、chiplet、3D堆疊和先進(jìn)封裝、存算一體等。
自從OpenAI的ChatGPT于2022年11月推出以來,AIGC迅速在全球掀起一股熱潮。與OpenAI有深度合作的微軟在BING搜索方面有了明顯的收益,谷歌和百度等搜索引擎和互聯(lián)網(wǎng)巨頭紛紛發(fā)布各自的大語言模型(LLM)。在這些熱潮的背后是GPU芯片的瘋狂購買囤貨,因?yàn)橛?xùn)練LLM需要龐大的算力支持。要支撐這類AI大模型的訓(xùn)練和基于這些模型的AIGC應(yīng)用,需要投入數(shù)十億美元的資金,同時(shí)還需要巨大的電力供應(yīng),因?yàn)樗懔?qiáng)大的GPGPU耗電量也十分驚人。
據(jù)統(tǒng)計(jì)預(yù)測,全球算力需求呈現(xiàn)高速發(fā)展態(tài)勢。2021年,全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFLOPS(每秒一百京次(=10^18)浮點(diǎn)運(yùn)算);到2025年,全球算力規(guī)模將達(dá)6.8 ZFLOPS( 每秒十萬京(=10^21)次的浮點(diǎn)運(yùn)算 ),與2020年相比提升30倍;到2030年,有望增至56ZFLOPS。算力翻倍時(shí)間在明顯縮短,大模型出現(xiàn)后,帶來了新的算力增長趨勢,平均算力翻倍時(shí)間約為9.9個(gè)月。
伴隨著算力的提升,數(shù)據(jù)中心和AI服務(wù)器的耗電量也大幅提升。2022年Intel第四代服務(wù)器處理器單CPU功耗已突破350瓦,英偉達(dá)單GPU芯片功耗突破700瓦,AI集群算力密度普遍達(dá)到50kW/柜。根據(jù)ChatGPT在使用訪問階段所需算力和耗電費(fèi)用估計(jì),使用英偉達(dá)DGX A100服務(wù)器的標(biāo)準(zhǔn)機(jī)柜需要542臺(tái)(每臺(tái)機(jī)柜的功率為45.5kw),折算為每日電費(fèi)大約4.7萬美元。
對國內(nèi)AI應(yīng)用企業(yè)來說,即便資金不是問題,能否購買到最先進(jìn)的GPU芯片也是個(gè)大問題。即便部署了足夠的GPU和服務(wù)器機(jī)柜,日常運(yùn)營的耗電成本也不容小覷。盡管最近兩年有不少國產(chǎn)GPU初創(chuàng)公司發(fā)布性能不錯(cuò)的GPU芯片,但到目前為止還難以跟英偉達(dá)的GPU相提并論。面對算力和能耗這兩大挑戰(zhàn),國產(chǎn)AI芯片公司能否想出“出奇”之道?
02. “存算一體”沖破能耗墻
“存算一體”技術(shù)可以解決傳統(tǒng)馮諾伊曼架構(gòu)處理器所面臨的三堵墻:存儲(chǔ)墻、能耗墻、編譯墻。存算一體架構(gòu)沒有深度多層級存儲(chǔ)的概念,所有的計(jì)算都放在存儲(chǔ)器內(nèi)實(shí)現(xiàn),這就從根本上消除了因?yàn)榇嫠惝悩?gòu)帶來的存儲(chǔ)墻及相應(yīng)的額外開銷;存儲(chǔ)墻的消除可大量減少數(shù)據(jù)搬運(yùn),不但提升了數(shù)據(jù)傳輸和處理速度,而且能效比得以數(shù)倍提升,這意味著支持與傳統(tǒng)架構(gòu)處理器同等算力所需的功耗可以大大降低;存儲(chǔ)和計(jì)算單元之間的調(diào)用和數(shù)據(jù)搬運(yùn)需要復(fù)雜的編程模型,而存算一體的數(shù)據(jù)狀態(tài)都是編譯器可以感知的,因此編譯效率很高,可以繞開傳統(tǒng)架構(gòu)的編譯墻(生態(tài)墻)。
在存算一體這一賽道上,最早是美國的Mythic公司在2010年左右推出了存算一體芯片,國內(nèi)在2017年左右出現(xiàn)了存算一體技術(shù)路徑的創(chuàng)業(yè)團(tuán)隊(duì),到現(xiàn)在為止已有數(shù)家,比如知存科技、千芯科技、蘋芯科技、九天睿芯、后摩智能和億鑄科技等。但這些初創(chuàng)公司在存儲(chǔ)器的選擇上出現(xiàn)了三種主要方向,最早從傳統(tǒng)存儲(chǔ)器開始,如Flash,SRAM再到新型憶阻器ReRAM。算力也從微小算力(《1T)、500T到1P的大算力。存算一體最大的優(yōu)勢在于高能效比,但微小算力場景與大算力場景最大的應(yīng)用區(qū)別是對計(jì)算精度要求的滿足及成本。這也決定著這些存算一體初創(chuàng)公司通向了不同的應(yīng)用場景,比如九天睿芯的芯片產(chǎn)品主要面向小算力的邊緣和端側(cè)應(yīng)用。而ChatGPT等大模型的出現(xiàn)勢必對AI大算力芯片提出新的要求。
基于“存算一體”架構(gòu)開發(fā)的AI芯片在克服能耗挑戰(zhàn)方面有很大的潛力,但如何實(shí)現(xiàn)高性能和大算力呢?
存算一體+chiplet也許是一種可行的“出奇”之道。
03. ReRAM:材料、工藝和AI應(yīng)用潛力
在傳統(tǒng)馮諾依曼計(jì)算架構(gòu)中,占據(jù)主要地位的DRAM和Flash等傳統(tǒng)存儲(chǔ)技術(shù)面臨技術(shù)瓶頸,面對低功耗和高性能的需求,無法實(shí)現(xiàn)根本性的改善,而新型存儲(chǔ)技術(shù)成為業(yè)界重點(diǎn)布局與探索的方向。經(jīng)過10多年的努力,MRAM(磁性存儲(chǔ)器)、PCRAM(相變存儲(chǔ)器)、FRAM(鐵電存儲(chǔ)器)和ReRAM(阻變存儲(chǔ)器)等新型存儲(chǔ)技術(shù)也逐步走出實(shí)驗(yàn)室,進(jìn)入試用甚至商用階段。
ReRAM(阻變存儲(chǔ)器,或憶阻器)是以非導(dǎo)性材料的電阻在外加電場作用下,在高阻態(tài)和低阻態(tài)之間實(shí)現(xiàn)可逆轉(zhuǎn)換為基礎(chǔ)的非易失性存儲(chǔ)器。ReRAM包括許多不同的技術(shù)類別,比如氧空穴存儲(chǔ)器(OxRAM)、導(dǎo)通橋聯(lián)存儲(chǔ)器(CBRAM)等。ReRAM的單元面積極小,可做到4F2,讀寫速度是NAND Flash的1000倍,同時(shí)功耗可降低10倍以上。
導(dǎo)通橋聯(lián)CBRAM基本結(jié)構(gòu)。(來源:Crossbar)
由于電阻切換機(jī)制基于金屬導(dǎo)絲,Crossbar ReRAM(CBRAM)單元非常穩(wěn)定,能夠承受從-40°C到125°C的溫度波動(dòng),寫周期為1M+,在85°C的溫度下可保存10年。從密度、能效比、成本、工藝制程和良率各方面綜合衡量,ReRAM存儲(chǔ)器在目前已有的新型存儲(chǔ)器中具備明顯優(yōu)勢。
基于導(dǎo)通橋聯(lián)的ReRAM具有高達(dá)1000倍的低/高阻態(tài)差異,使其不易受外界運(yùn)行環(huán)境的干擾影響,具有很強(qiáng)的穩(wěn)定性。同時(shí),以ReRAM組成的存算陣列單元因?yàn)樽钁B(tài)區(qū)分度大,所實(shí)現(xiàn)的存內(nèi)計(jì)算可以更好地滿足大算力應(yīng)用場景對算力、精度、能效比和可靠性的嚴(yán)格要求。
ReRAM以其密度增長空間大、生產(chǎn)工藝與CMOS兼容等優(yōu)勢,吸引了國內(nèi)外眾多IP技術(shù)企業(yè)、大型晶圓代工廠、傳統(tǒng)存儲(chǔ)企業(yè)和半導(dǎo)體初創(chuàng)企業(yè)投入到其商業(yè)化進(jìn)程中。目前,臺(tái)積電、聯(lián)電、Crossbar、昕原半導(dǎo)體、松下、東芝、索尼、美光、海力士和富士通等廠商都在積極開展ReRAM技術(shù)的研究和產(chǎn)業(yè)化推進(jìn)。國內(nèi)新型存儲(chǔ)器ReRAM的生產(chǎn)工藝及產(chǎn)線已經(jīng)實(shí)現(xiàn)了規(guī)模化量產(chǎn)商用。
基于ReRAM工藝的芯片主要用于存儲(chǔ)和存算一體兩個(gè)方面,其中采用”存算一體“結(jié)構(gòu)和技術(shù)的AI芯片將有可能實(shí)現(xiàn)AI大算力突破,成為可以應(yīng)對AIGC大算力挑戰(zhàn)的GPGPU有力競爭者,有望在AIoT、智能汽車、數(shù)據(jù)中心和高性能計(jì)算等方面獲得廣泛的應(yīng)用。存算一體AI芯片初創(chuàng)公司億鑄科技基于憶阻器這種新型存儲(chǔ)器件,創(chuàng)新性地采用全數(shù)字化的實(shí)現(xiàn)方式,將存算一體架構(gòu)應(yīng)用于AI大算力芯片,從而讓存算一體真正在高精度、大算力AI方向?qū)崿F(xiàn)商用落地。
04. 存算一體+Chiplet助力AI算力第二增長曲線
由于AI模型規(guī)模不斷擴(kuò)大,用于深度學(xué)習(xí)的存內(nèi)計(jì)算 (IMC) 單芯片方案在芯片面積、良率和片上互連成本等方面面臨著巨大挑戰(zhàn)。存算一體AI芯片能否借助芯粒(chiplet)和2.5D/3D堆疊封裝技術(shù)實(shí)現(xiàn)異構(gòu)集成,從而形成大型計(jì)算系統(tǒng),提供超越單一架構(gòu)IMC芯片的大型深度學(xué)習(xí)模型訓(xùn)練和推理方案?
美國亞利桑那州立大學(xué)的學(xué)者于2021年發(fā)布了一種基于chiplet 的IMC架構(gòu)基準(zhǔn)測試仿真器SIAM,用于評估這種新型架構(gòu)在AI大模型訓(xùn)練上的潛力。SIAM集成了器件、電路、架構(gòu)、片上網(wǎng)絡(luò)(NoC)、封裝網(wǎng)絡(luò)(NoP)和DRAM訪問模型,以實(shí)現(xiàn)一種端到端的高性能計(jì)算系統(tǒng)。SIAM 在支持深度神經(jīng)網(wǎng)絡(luò) (DNN) 方面具有可擴(kuò)展性,可針對各種網(wǎng)絡(luò)結(jié)構(gòu)和配置進(jìn)行定制。其研究團(tuán)隊(duì)通過使用 CIFAR-10、CIFAR-100 和 ImageNet 數(shù)據(jù)集對不同的先進(jìn)DNN進(jìn)行基準(zhǔn)測試來展示SIAM的靈活性、可擴(kuò)展性和仿真速度。據(jù)稱,相對于英偉達(dá)V100和T4 GPU,通過SIAM獲得的chiplet +IMC架構(gòu)顯示ResNet-50在ImageNet數(shù)據(jù)集上的能效分別提高了130和72。
SIAM采用基于chiplet的 IMC 架構(gòu)。(來源:SIAM/GOKUL KRISHNAN)
上圖顯示了SIAM使用的基于同構(gòu)chiplet的IMC架構(gòu)。整個(gè)架構(gòu)由一系列chiplet組成,其中包括IMC計(jì)算單元、全局累加器、全局緩沖區(qū)和DRAM。Chiplet陣列利用封裝上網(wǎng)絡(luò)(NoP)實(shí)現(xiàn)互聯(lián)。SIAM支持基于SRAM或RRAM的IMC Crossbar存算單元,這些存算單元陣列組成處理元素(PE);PE陣列又構(gòu)成IMC Tile陣列,然后構(gòu)成IMC chiplet。
盡管SIAM仿真器僅針對同質(zhì)架構(gòu)或定制架構(gòu),但為異構(gòu)集成實(shí)現(xiàn)的存算一體+Chiplet架構(gòu)提供了很有價(jià)值的設(shè)計(jì)思路。就存算一體、Chiplet和2.5D/3D先進(jìn)封裝技術(shù)的發(fā)展而言,國內(nèi)廠商跟國外同行基本處于同一起跑線上。在兼容CMOS的國產(chǎn)ReRAM工藝上,通過Chiplet和先進(jìn)封裝集成IMC單元、GPU和CPU等不同工藝節(jié)點(diǎn)的處理單元,來實(shí)現(xiàn)大算力AI芯片以應(yīng)對算力和功耗的挑戰(zhàn),看來是可行的。
有業(yè)界專家總結(jié)出AI算力增長的階段性曲線,自2018年至今的GPGPU和AI芯片算力增長屬于第一增長曲線階段。這一階段的參與者有英偉達(dá)和AMD等國際GPU巨頭,也有眾多國內(nèi)廠商參與其中,包括百度昆侖芯、華為海思、天數(shù)智芯、寒武紀(jì)和壁仞科技等。這些公司所采用的晶圓工藝從14nm到5nm不等;算力從130T到485T;功耗從70W到150W。這一階段的AI芯片的共同點(diǎn)在于都是采用傳統(tǒng)的處理器架構(gòu),伴隨著算力的提升,功耗和成本也隨之上升。工藝節(jié)點(diǎn)到了5nm,一顆芯片的研發(fā)成本以億美元計(jì)算,不是每一家公司都能夠支撐得起的。即便有這個(gè)實(shí)力可以繼續(xù)支撐下去,但算力與功耗的矛盾也是難以解決的,因?yàn)樘幚砥骷軜?gòu)在本質(zhì)上決定了其局限性。
對于國內(nèi)廠商來說,要在成熟工藝上以低成本實(shí)現(xiàn)500T以上的算力,就必須采用“出奇“的架構(gòu)。存算一體+chiplet組合似乎是一種可行的實(shí)現(xiàn)方式,據(jù)稱億鑄科技正在這條路上探索,其第一代存算一體AI大算力商用芯片可實(shí)現(xiàn)單卡算力500T以上,功耗在75W以內(nèi)。也許這將開啟AI算力第二增長曲線的序幕。
審核編輯 :李倩
-
芯片
+關(guān)注
關(guān)注
459文章
52145瀏覽量
435768 -
集成電路
+關(guān)注
關(guān)注
5417文章
11942瀏覽量
366967 -
AI
+關(guān)注
關(guān)注
87文章
34145瀏覽量
275243 -
chiplet
+關(guān)注
關(guān)注
6文章
452瀏覽量
12857
原文標(biāo)題:存算一體+Chiplet能否應(yīng)對AI大算力和高能耗的挑戰(zhàn)?
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
存算一體大算力AI芯片將逐漸走向落地應(yīng)用
ReRAM存算一體AI大算力芯片的獨(dú)特優(yōu)勢
存算一體技術(shù)路線如何選

億鑄科技發(fā)布基于ReRAM的全數(shù)字化存算一體AI大算力芯片技術(shù)
國產(chǎn)存算一體超速前進(jìn) 存算一體架構(gòu)有機(jī)會(huì)解決很多AI面臨的問題
基于憶阻器存算一體芯片的研究進(jìn)展
基于憶阻器存算一體芯片研究進(jìn)展、總結(jié)與展望
基于3DIC架構(gòu)的存算一體芯片仿真解決方案
存算一體:內(nèi)核架構(gòu)創(chuàng)新,打破算力能效極限

ChatGPT開啟大模型“軍備賽”,存算一體開啟算力新篇章

Chiplet和存算一體有什么聯(lián)系?
淺談為AI大算力而生的存算-體芯片

評論