黑丝美腿女直播自慰,东北老头嫖妓猛对白精彩,久久精品免费影视

01. AI大算力芯片的“出奇”想法

在最近由AspenCore主辦的2023中國IC領(lǐng)袖峰會(huì)上，中國半導(dǎo)體行業(yè)協(xié)會(huì)IC設(shè)計(jì)分會(huì)理事長魏少軍教授在《集成電路發(fā)展中的“正”與“奇”》的主題演講中提到，中國半導(dǎo)體產(chǎn)業(yè)的發(fā)展要在“守正”的市場發(fā)展道路上穩(wěn)步前行，同時(shí)也需要在新的賽道“出奇”。比如在高性能計(jì)算領(lǐng)域，在先進(jìn)工藝、技術(shù)和芯片產(chǎn)品受到外界限制的情況下，我們?nèi)绾卫脟a(chǎn)工藝技術(shù)實(shí)現(xiàn)創(chuàng)新而跟全球高性能計(jì)算和AI發(fā)展保持同步甚至超越？更具體一點(diǎn)，就目前炒作火熱的AIGC大模型所需要的大算力AI芯片來說，能否利用我們現(xiàn)在可用的工藝和技術(shù)來開發(fā)在性能上可以跟英偉達(dá)GPGPU對標(biāo)的AI芯片呢？一些“守正且出奇”的技術(shù)包括：軟件定義芯片、chiplet、3D堆疊和先進(jìn)封裝、存算一體等。

自從OpenAI的ChatGPT于2022年11月推出以來，AIGC迅速在全球掀起一股熱潮。與OpenAI有深度合作的微軟在BING搜索方面有了明顯的收益，谷歌和百度等搜索引擎和互聯(lián)網(wǎng)巨頭紛紛發(fā)布各自的大語言模型（LLM）。在這些熱潮的背后是GPU芯片的瘋狂購買囤貨，因?yàn)橛?xùn)練LLM需要龐大的算力支持。要支撐這類AI大模型的訓(xùn)練和基于這些模型的AIGC應(yīng)用，需要投入數(shù)十億美元的資金，同時(shí)還需要巨大的電力供應(yīng)，因?yàn)樗懔?qiáng)大的GPGPU耗電量也十分驚人。

據(jù)統(tǒng)計(jì)預(yù)測，全球算力需求呈現(xiàn)高速發(fā)展態(tài)勢。2021年，全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFLOPS（每秒一百京次（=10^18）浮點(diǎn)運(yùn)算）;到2025年，全球算力規(guī)模將達(dá)6.8 ZFLOPS（每秒十萬京（=10^21）次的浮點(diǎn)運(yùn)算），與2020年相比提升30倍;到2030年，有望增至56ZFLOPS。算力翻倍時(shí)間在明顯縮短，大模型出現(xiàn)后，帶來了新的算力增長趨勢，平均算力翻倍時(shí)間約為9.9個(gè)月。

伴隨著算力的提升，數(shù)據(jù)中心和AI服務(wù)器的耗電量也大幅提升。2022年Intel第四代服務(wù)器處理器單CPU功耗已突破350瓦，英偉達(dá)單GPU芯片功耗突破700瓦，AI集群算力密度普遍達(dá)到50kW/柜。根據(jù)ChatGPT在使用訪問階段所需算力和耗電費(fèi)用估計(jì)，使用英偉達(dá)DGX A100服務(wù)器的標(biāo)準(zhǔn)機(jī)柜需要542臺(tái)（每臺(tái)機(jī)柜的功率為45.5kw），折算為每日電費(fèi)大約4.7萬美元。

對國內(nèi)AI應(yīng)用企業(yè)來說，即便資金不是問題，能否購買到最先進(jìn)的GPU芯片也是個(gè)大問題。即便部署了足夠的GPU和服務(wù)器機(jī)柜，日常運(yùn)營的耗電成本也不容小覷。盡管最近兩年有不少國產(chǎn)GPU初創(chuàng)公司發(fā)布性能不錯(cuò)的GPU芯片，但到目前為止還難以跟英偉達(dá)的GPU相提并論。面對算力和能耗這兩大挑戰(zhàn)，國產(chǎn)AI芯片公司能否想出“出奇”之道？

02. “存算一體”沖破能耗墻

“存算一體”技術(shù)可以解決傳統(tǒng)馮諾伊曼架構(gòu)處理器所面臨的三堵墻：存儲(chǔ)墻、能耗墻、編譯墻。存算一體架構(gòu)沒有深度多層級存儲(chǔ)的概念，所有的計(jì)算都放在存儲(chǔ)器內(nèi)實(shí)現(xiàn)，這就從根本上消除了因?yàn)榇嫠惝悩?gòu)帶來的存儲(chǔ)墻及相應(yīng)的額外開銷;存儲(chǔ)墻的消除可大量減少數(shù)據(jù)搬運(yùn)，不但提升了數(shù)據(jù)傳輸和處理速度，而且能效比得以數(shù)倍提升，這意味著支持與傳統(tǒng)架構(gòu)處理器同等算力所需的功耗可以大大降低;存儲(chǔ)和計(jì)算單元之間的調(diào)用和數(shù)據(jù)搬運(yùn)需要復(fù)雜的編程模型，而存算一體的數(shù)據(jù)狀態(tài)都是編譯器可以感知的，因此編譯效率很高，可以繞開傳統(tǒng)架構(gòu)的編譯墻（生態(tài)墻）。

在存算一體這一賽道上，最早是美國的Mythic公司在2010年左右推出了存算一體芯片，國內(nèi)在2017年左右出現(xiàn)了存算一體技術(shù)路徑的創(chuàng)業(yè)團(tuán)隊(duì)，到現(xiàn)在為止已有數(shù)家，比如知存科技、千芯科技、蘋芯科技、九天睿芯、后摩智能和億鑄科技等。但這些初創(chuàng)公司在存儲(chǔ)器的選擇上出現(xiàn)了三種主要方向，最早從傳統(tǒng)存儲(chǔ)器開始，如Flash，SRAM再到新型憶阻器ReRAM。算力也從微小算力（《1T）、500T到1P的大算力。存算一體最大的優(yōu)勢在于高能效比，但微小算力場景與大算力場景最大的應(yīng)用區(qū)別是對計(jì)算精度要求的滿足及成本。這也決定著這些存算一體初創(chuàng)公司通向了不同的應(yīng)用場景，比如九天睿芯的芯片產(chǎn)品主要面向小算力的邊緣和端側(cè)應(yīng)用。而ChatGPT等大模型的出現(xiàn)勢必對AI大算力芯片提出新的要求。

基于“存算一體”架構(gòu)開發(fā)的AI芯片在克服能耗挑戰(zhàn)方面有很大的潛力，但如何實(shí)現(xiàn)高性能和大算力呢？

存算一體+chiplet也許是一種可行的“出奇”之道。

03. ReRAM：材料、工藝和AI應(yīng)用潛力

在傳統(tǒng)馮諾依曼計(jì)算架構(gòu)中，占據(jù)主要地位的DRAM和Flash等傳統(tǒng)存儲(chǔ)技術(shù)面臨技術(shù)瓶頸，面對低功耗和高性能的需求，無法實(shí)現(xiàn)根本性的改善，而新型存儲(chǔ)技術(shù)成為業(yè)界重點(diǎn)布局與探索的方向。經(jīng)過10多年的努力，MRAM（磁性存儲(chǔ)器）、PCRAM（相變存儲(chǔ)器）、FRAM（鐵電存儲(chǔ)器）和ReRAM（阻變存儲(chǔ)器）等新型存儲(chǔ)技術(shù)也逐步走出實(shí)驗(yàn)室，進(jìn)入試用甚至商用階段。

ReRAM（阻變存儲(chǔ)器，或憶阻器）是以非導(dǎo)性材料的電阻在外加電場作用下，在高阻態(tài)和低阻態(tài)之間實(shí)現(xiàn)可逆轉(zhuǎn)換為基礎(chǔ)的非易失性存儲(chǔ)器。ReRAM包括許多不同的技術(shù)類別，比如氧空穴存儲(chǔ)器（OxRAM）、導(dǎo)通橋聯(lián)存儲(chǔ)器（CBRAM）等。ReRAM的單元面積極小，可做到4F2，讀寫速度是NAND Flash的1000倍，同時(shí)功耗可降低10倍以上。

導(dǎo)通橋聯(lián)CBRAM基本結(jié)構(gòu)。（來源：Crossbar）

由于電阻切換機(jī)制基于金屬導(dǎo)絲，Crossbar ReRAM（CBRAM）單元非常穩(wěn)定，能夠承受從-40°C到125°C的溫度波動(dòng)，寫周期為1M+，在85°C的溫度下可保存10年。從密度、能效比、成本、工藝制程和良率各方面綜合衡量，ReRAM存儲(chǔ)器在目前已有的新型存儲(chǔ)器中具備明顯優(yōu)勢。

基于導(dǎo)通橋聯(lián)的ReRAM具有高達(dá)1000倍的低/高阻態(tài)差異，使其不易受外界運(yùn)行環(huán)境的干擾影響，具有很強(qiáng)的穩(wěn)定性。同時(shí)，以ReRAM組成的存算陣列單元因?yàn)樽钁B(tài)區(qū)分度大，所實(shí)現(xiàn)的存內(nèi)計(jì)算可以更好地滿足大算力應(yīng)用場景對算力、精度、能效比和可靠性的嚴(yán)格要求。

ReRAM以其密度增長空間大、生產(chǎn)工藝與CMOS兼容等優(yōu)勢，吸引了國內(nèi)外眾多IP技術(shù)企業(yè)、大型晶圓代工廠、傳統(tǒng)存儲(chǔ)企業(yè)和半導(dǎo)體初創(chuàng)企業(yè)投入到其商業(yè)化進(jìn)程中。目前，臺(tái)積電、聯(lián)電、Crossbar、昕原半導(dǎo)體、松下、東芝、索尼、美光、海力士和富士通等廠商都在積極開展ReRAM技術(shù)的研究和產(chǎn)業(yè)化推進(jìn)。國內(nèi)新型存儲(chǔ)器ReRAM的生產(chǎn)工藝及產(chǎn)線已經(jīng)實(shí)現(xiàn)了規(guī)模化量產(chǎn)商用。

基于ReRAM工藝的芯片主要用于存儲(chǔ)和存算一體兩個(gè)方面，其中采用”存算一體“結(jié)構(gòu)和技術(shù)的AI芯片將有可能實(shí)現(xiàn)AI大算力突破，成為可以應(yīng)對AIGC大算力挑戰(zhàn)的GPGPU有力競爭者，有望在AIoT、智能汽車、數(shù)據(jù)中心和高性能計(jì)算等方面獲得廣泛的應(yīng)用。存算一體AI芯片初創(chuàng)公司億鑄科技基于憶阻器這種新型存儲(chǔ)器件，創(chuàng)新性地采用全數(shù)字化的實(shí)現(xiàn)方式，將存算一體架構(gòu)應(yīng)用于AI大算力芯片，從而讓存算一體真正在高精度、大算力AI方向?qū)崿F(xiàn)商用落地。

04. 存算一體+Chiplet助力AI算力第二增長曲線

由于AI模型規(guī)模不斷擴(kuò)大，用于深度學(xué)習(xí)的存內(nèi)計(jì)算（IMC）單芯片方案在芯片面積、良率和片上互連成本等方面面臨著巨大挑戰(zhàn)。存算一體AI芯片能否借助芯粒（chiplet）和2.5D/3D堆疊封裝技術(shù)實(shí)現(xiàn)異構(gòu)集成，從而形成大型計(jì)算系統(tǒng)，提供超越單一架構(gòu)IMC芯片的大型深度學(xué)習(xí)模型訓(xùn)練和推理方案？

美國亞利桑那州立大學(xué)的學(xué)者于2021年發(fā)布了一種基于chiplet 的IMC架構(gòu)基準(zhǔn)測試仿真器SIAM，用于評估這種新型架構(gòu)在AI大模型訓(xùn)練上的潛力。SIAM集成了器件、電路、架構(gòu)、片上網(wǎng)絡(luò)（NoC）、封裝網(wǎng)絡(luò)（NoP）和DRAM訪問模型，以實(shí)現(xiàn)一種端到端的高性能計(jì)算系統(tǒng)。SIAM 在支持深度神經(jīng)網(wǎng)絡(luò) （DNN）方面具有可擴(kuò)展性，可針對各種網(wǎng)絡(luò)結(jié)構(gòu)和配置進(jìn)行定制。其研究團(tuán)隊(duì)通過使用 CIFAR-10、CIFAR-100 和 ImageNet 數(shù)據(jù)集對不同的先進(jìn)DNN進(jìn)行基準(zhǔn)測試來展示SIAM的靈活性、可擴(kuò)展性和仿真速度。據(jù)稱，相對于英偉達(dá)V100和T4 GPU，通過SIAM獲得的chiplet +IMC架構(gòu)顯示ResNet-50在ImageNet數(shù)據(jù)集上的能效分別提高了130和72。

SIAM采用基于chiplet的 IMC 架構(gòu)。（來源：SIAM/GOKUL KRISHNAN）

上圖顯示了SIAM使用的基于同構(gòu)chiplet的IMC架構(gòu)。整個(gè)架構(gòu)由一系列chiplet組成，其中包括IMC計(jì)算單元、全局累加器、全局緩沖區(qū)和DRAM。Chiplet陣列利用封裝上網(wǎng)絡(luò)（NoP）實(shí)現(xiàn)互聯(lián)。SIAM支持基于SRAM或RRAM的IMC Crossbar存算單元，這些存算單元陣列組成處理元素（PE）;PE陣列又構(gòu)成IMC Tile陣列，然后構(gòu)成IMC chiplet。

盡管SIAM仿真器僅針對同質(zhì)架構(gòu)或定制架構(gòu)，但為異構(gòu)集成實(shí)現(xiàn)的存算一體+Chiplet架構(gòu)提供了很有價(jià)值的設(shè)計(jì)思路。就存算一體、Chiplet和2.5D/3D先進(jìn)封裝技術(shù)的發(fā)展而言，國內(nèi)廠商跟國外同行基本處于同一起跑線上。在兼容CMOS的國產(chǎn)ReRAM工藝上，通過Chiplet和先進(jìn)封裝集成IMC單元、GPU和CPU等不同工藝節(jié)點(diǎn)的處理單元，來實(shí)現(xiàn)大算力AI芯片以應(yīng)對算力和功耗的挑戰(zhàn)，看來是可行的。

有業(yè)界專家總結(jié)出AI算力增長的階段性曲線，自2018年至今的GPGPU和AI芯片算力增長屬于第一增長曲線階段。這一階段的參與者有英偉達(dá)和AMD等國際GPU巨頭，也有眾多國內(nèi)廠商參與其中，包括百度昆侖芯、華為海思、天數(shù)智芯、寒武紀(jì)和壁仞科技等。這些公司所采用的晶圓工藝從14nm到5nm不等;算力從130T到485T;功耗從70W到150W。這一階段的AI芯片的共同點(diǎn)在于都是采用傳統(tǒng)的處理器架構(gòu)，伴隨著算力的提升，功耗和成本也隨之上升。工藝節(jié)點(diǎn)到了5nm，一顆芯片的研發(fā)成本以億美元計(jì)算，不是每一家公司都能夠支撐得起的。即便有這個(gè)實(shí)力可以繼續(xù)支撐下去，但算力與功耗的矛盾也是難以解決的，因?yàn)樘幚砥骷軜?gòu)在本質(zhì)上決定了其局限性。

對于國內(nèi)廠商來說，要在成熟工藝上以低成本實(shí)現(xiàn)500T以上的算力，就必須采用“出奇“的架構(gòu)。存算一體+chiplet組合似乎是一種可行的實(shí)現(xiàn)方式，據(jù)稱億鑄科技正在這條路上探索，其第一代存算一體AI大算力商用芯片可實(shí)現(xiàn)單卡算力500T以上，功耗在75W以內(nèi)。也許這將開啟AI算力第二增長曲線的序幕。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴