我們生活在一個(gè)以數(shù)字處理為主的模擬世界中,然而隨著摩爾定律開(kāi)始走到極限,以及內(nèi)存墻的存在,傳統(tǒng)的數(shù)字處理器難以以足夠低的功耗和足夠的內(nèi)存資源提供必要的性能,尤其是對(duì)于在邊緣運(yùn)行的大型模型。現(xiàn)在人工智能和深度學(xué)習(xí)的應(yīng)用逐漸被應(yīng)用在各個(gè)領(lǐng)域,對(duì)更好性能、更大深度神經(jīng)網(wǎng)絡(luò) (DNN) 模型容量和更低功耗的需求變得越來(lái)越重要。
在這樣時(shí)代發(fā)展和需求下,模擬計(jì)算正在走向歷史舞臺(tái)。模擬計(jì)算或?qū)⑹侨斯ぶ悄軇?chuàng)新的關(guān)鍵。
什么是模擬計(jì)算?
首先需要了解到的是,模擬計(jì)算不是新事物,其出現(xiàn)在電子電路之前。一說(shuō)到計(jì)算,本能的相關(guān)概念是跟“數(shù)字”有關(guān),現(xiàn)在大多數(shù)計(jì)算機(jī)和計(jì)算功能都是用通用數(shù)字邏輯、專用算術(shù)邏輯單元 (ALU) 或?qū)S糜?jì)算引擎實(shí)現(xiàn)的。但在20世紀(jì)上半葉,在數(shù)字處理和計(jì)算機(jī)普及之前,都是用模擬計(jì)算機(jī)來(lái)進(jìn)行計(jì)算。
據(jù)Analog IC Tips的報(bào)道,古老的計(jì)算尺是一種模擬計(jì)算機(jī),如下圖所示,它可用于乘法、除法、對(duì)數(shù)、根,甚至是復(fù)雜的微分方程等運(yùn)算。
雖然模擬計(jì)算只能精確到兩個(gè)、三個(gè)或者四個(gè)重要的數(shù)字,但它確實(shí)是以前工程師、科學(xué)家等的有效工具,點(diǎn)火表、行星和衛(wèi)星軌道、核武器和能源工作、潮汐表等等都是使用模擬計(jì)算機(jī)設(shè)置和解決的,甚至1969年阿姆斯特朗成功登月,也有模擬計(jì)算機(jī)的參與。
?
早期的計(jì)算尺:模擬計(jì)算機(jī)
(圖源:國(guó)際計(jì)算尺博物館)
早期的模擬計(jì)算機(jī)大多包含旋轉(zhuǎn)輪子和齒輪的機(jī)械裝置,如下圖這臺(tái)機(jī)械模擬計(jì)算機(jī)用于預(yù)測(cè)潮汐。它被稱為“Old Brass Brains”(或者更正式的說(shuō)法是“2號(hào)潮汐預(yù)測(cè)機(jī)”),從1912年開(kāi)始為美國(guó)海岸和大地測(cè)量局計(jì)算潮汐表。
到1940年代,電子模擬計(jì)算機(jī)開(kāi)始得到廣泛發(fā)展,電子模擬計(jì)算機(jī)是包含數(shù)百或數(shù)千個(gè)真空管,按照IEEE的報(bào)道說(shuō)法,電子模擬計(jì)算機(jī)的編程是通過(guò)接線板手動(dòng)連接各個(gè)組件之間的連接來(lái)完成的。
它們是復(fù)雜而古怪的機(jī)器,需要經(jīng)過(guò)專門培訓(xùn)的人員才能理解和運(yùn)行它們。1965年左右,這種電子模擬計(jì)算機(jī)將機(jī)械模擬計(jì)算機(jī)淘汰。
從上圖的機(jī)械預(yù)測(cè)機(jī)和電子模擬計(jì)算機(jī)中,我們也可以看出,這些模擬計(jì)算機(jī)太難設(shè)計(jì)、建造、操作和維護(hù)。到1960年代,數(shù)字計(jì)算機(jī)開(kāi)始起飛,因?yàn)樗麄兡苤苯泳幊獭⑦M(jìn)行算法操作,且易于存儲(chǔ),具有高精度等等。
自此以后,電子模擬計(jì)算機(jī)被數(shù)字計(jì)算機(jī)取代,并且隨著MOS晶體管的不斷發(fā)展,世界計(jì)算潮頭完全轉(zhuǎn)向了數(shù)字計(jì)算機(jī),數(shù)字技術(shù)一直主導(dǎo)著計(jì)算領(lǐng)域,并且一直到今天。不過(guò)上述這些模擬計(jì)算機(jī)仍然在博物館珍藏,以備后人觀摩,并且讓世人記住這些偉大的發(fā)明創(chuàng)新。
據(jù)清華大學(xué)電子工程系的喬飛副研究員(喬飛在低功耗集成電路設(shè)計(jì)、面向智能感知的新型高能效信號(hào)處理架構(gòu)和集成智能感知電路系統(tǒng)領(lǐng)域有近20年的基礎(chǔ)理論研究和關(guān)鍵芯片設(shè)計(jì)技術(shù)積累。)告訴筆者,模擬計(jì)算機(jī)被數(shù)字取代,主要原因有幾點(diǎn):一是早期的模擬計(jì)算機(jī)的工藝和器件不太穩(wěn)定,再加上模擬計(jì)算是連續(xù)信號(hào),容易受到噪聲干擾,這些都導(dǎo)致了模擬計(jì)算的精度不足問(wèn)題。二是模擬計(jì)算很大部分是存儲(chǔ)器,但是卻很難做高效率的存儲(chǔ),這也是制約其技術(shù)演進(jìn)的原因。
模擬計(jì)算因應(yīng)時(shí)代發(fā)展和本身優(yōu)勢(shì),再登歷史舞臺(tái)
現(xiàn)在摩爾定律逐漸走到極限,數(shù)十億晶體管組成的芯片上,數(shù)字計(jì)算所產(chǎn)生的熱量和功耗是巨大的。進(jìn)入后摩爾時(shí)代,單純靠工藝的演進(jìn)帶來(lái)的效率提升已經(jīng)逐漸達(dá)不到系統(tǒng)的需求。在架構(gòu)上的創(chuàng)新已經(jīng)是不得不做的一件事,特別是面向特定領(lǐng)域的計(jì)算架構(gòu)創(chuàng)新。于是模擬計(jì)算開(kāi)始再次被業(yè)界探究。
那么,為何現(xiàn)在模擬計(jì)算被再次重提呢?喬飛認(rèn)為,隨著現(xiàn)在工藝逐漸穩(wěn)定可靠,已經(jīng)可以支撐一定精度模擬計(jì)算的實(shí)現(xiàn),再加上一些算法、電路、甚至是版圖上的一些降低外部干擾的技術(shù)。
還有一點(diǎn)是,雖然模擬計(jì)算不太好做存儲(chǔ),但是通過(guò)在架構(gòu)上的革新,與數(shù)字存儲(chǔ)做融合,則能實(shí)現(xiàn)存儲(chǔ)能力的提升。更重要的一點(diǎn)是應(yīng)用需求的驅(qū)動(dòng),現(xiàn)在諸如電池供電的小型化的設(shè)備的邊緣計(jì)算,對(duì)低功耗數(shù)量和質(zhì)量的訴求越來(lái)越多、且越來(lái)越強(qiáng)烈。
其實(shí),與數(shù)字計(jì)算相比,模擬計(jì)算一直以來(lái)都很有前景。計(jì)算機(jī)系統(tǒng)的模擬表示通常更自然,因?yàn)樗苯臃从沉讼到y(tǒng)的結(jié)構(gòu)。
在某些情況下,模擬計(jì)算機(jī)比數(shù)字計(jì)算機(jī)更快,因?yàn)樗赡芡瑫r(shí)求解多個(gè)方程,而不是一次求解一個(gè)方程的數(shù)字計(jì)算機(jī),只給出同時(shí)性的結(jié)果。再者,模擬計(jì)算無(wú)需轉(zhuǎn)換器進(jìn)行數(shù)字模擬轉(zhuǎn)換,許多實(shí)時(shí)系統(tǒng)的信號(hào)可以同時(shí)計(jì)算。
而且,現(xiàn)在的許多應(yīng)用可能只需要一點(diǎn)點(diǎn)計(jì)算能力,使用數(shù)字電路需要消耗的大量的處理器資源。
此外,在一些特定領(lǐng)域,模擬計(jì)算在非常低和非常高的頻率下能發(fā)揮更好的作用。諸如說(shuō),在大約10 kHz 和 100 kHz 之間的非常低的速度下,數(shù)字計(jì)算功能的性能可能遠(yuǎn)遠(yuǎn)超過(guò)所需,造成成本高昂且耗電;在數(shù)百M(fèi)Hz和數(shù)GHz的最高速度下,以數(shù)字方式執(zhí)行此操作可能需要高速 A/D 轉(zhuǎn)換器和高性能處理器內(nèi)核,這些內(nèi)核既昂貴又耗電,或者根本不可用。
所以整體來(lái)看,模擬計(jì)算主要有兩大優(yōu)勢(shì):一是速度,因?yàn)槲覀冇?jì)算機(jī)的核心是模擬的,在當(dāng)今的許多應(yīng)用中,數(shù)字計(jì)算機(jī)依賴于各種傳感器,其中一些傳感器可能非常復(fù)雜,并且可能涉及模擬計(jì)算,如果需要,可以將模擬計(jì)算芯片直接與傳感器和執(zhí)行器接口,它消除了數(shù)據(jù)移動(dòng);二是功率效率,它具有高性能和低延遲,使其適合在向量運(yùn)算期間并行發(fā)生的數(shù)十萬(wàn)個(gè)乘加運(yùn)算。
模擬計(jì)算也存在工藝選擇和成本上的優(yōu)勢(shì),據(jù)喬飛此前的實(shí)驗(yàn)得出,完成相同功能的計(jì)算,采用180nm的模擬工藝設(shè)計(jì)可以和65nm的數(shù)字設(shè)計(jì)是相當(dāng)?shù)摹R驗(yàn)椴扇〉氖浅墒斓?a target="_blank">半導(dǎo)體工藝節(jié)點(diǎn),他們通常成本更低,供應(yīng)鏈可用性更廣,也省去了外圍組件的成本。
那么,模擬計(jì)算主要適合哪些應(yīng)用呢?
“模擬計(jì)算非常適合現(xiàn)在的邊緣AI計(jì)算要求,特別是神經(jīng)網(wǎng)絡(luò)和感知類的應(yīng)用需求。因?yàn)檫@兩個(gè)領(lǐng)域的容錯(cuò)特性很強(qiáng),通過(guò)算法就可以實(shí)現(xiàn)容錯(cuò),這樣就可以配合電路設(shè)計(jì)方案,做軟硬件的聯(lián)合設(shè)計(jì)。”喬飛強(qiáng)調(diào)到。
美國(guó)ARM研究公司機(jī)器學(xué)習(xí)研究負(fù)責(zé)人Paul Whatmough 說(shuō):“模擬內(nèi)存計(jì)算技術(shù)可能非常適合超低功耗TinyML感知任務(wù),例如邊緣計(jì)算應(yīng)用程序中的關(guān)鍵字發(fā)現(xiàn)和視覺(jué)喚醒詞。”
模擬計(jì)算的早期玩家顯現(xiàn)
在模擬計(jì)算領(lǐng)域的商業(yè)化之路上,國(guó)外的Mythic一直在這個(gè)領(lǐng)域研究,Arm和IBM也合作打造了一顆模擬AI芯片;Innatera、Rain Neuromorphics正在進(jìn)行模擬類腦芯片的研究;國(guó)內(nèi)的每刻深思也在感知領(lǐng)域進(jìn)行模擬計(jì)算的商業(yè)化落地。
現(xiàn)在網(wǎng)絡(luò)邊緣計(jì)算需要各種攝像頭、激光雷達(dá)、安全等傳感器,這些傳感器產(chǎn)生如此多的數(shù)據(jù),很難將如此大的數(shù)據(jù)模型放在芯片中。
在人工智能計(jì)算中,芯片通常必須處理大量的簡(jiǎn)單算術(shù),每秒有數(shù)萬(wàn)億次加法和乘法運(yùn)算。Mythic選擇用模擬AI處理器來(lái)處理計(jì)算,并將這些結(jié)果存儲(chǔ)在閃存中,其在芯片中封裝了大量的閃存,從而消除了系統(tǒng)中的多余部件,如散熱組件等。他認(rèn)為,在芯片尺寸、成本和功耗方面,這將比GPU或其他處理相同計(jì)算的方式更有效。
據(jù)Mythic所介紹的模擬計(jì)算原理:模擬計(jì)算將內(nèi)存計(jì)算發(fā)揮到了極致,即直接在內(nèi)存數(shù)組內(nèi)部進(jìn)行計(jì)算。使用內(nèi)存元素作為可調(diào)電阻,提供輸入作為電壓,并收集輸出作為電流。在核心神經(jīng)網(wǎng)絡(luò)矩陣操作中使用模擬計(jì)算,即用一個(gè)輸入向量乘以一個(gè)權(quán)重矩陣。
?
圖源:Mythic
2021年6月,Mythic推出了模擬AI處理器M1076 AMP ,它可在3瓦功率范圍內(nèi)支持高達(dá)每秒25萬(wàn)億次 (TOPS) 的AI計(jì)算操作。M1076 集成了76個(gè)AMP塊,所有這些都在一個(gè)芯片中,可存儲(chǔ)多達(dá)80M的權(quán)重參數(shù)并執(zhí)行矩陣乘法運(yùn)算,無(wú)需任何外部存儲(chǔ)器。這使得 M1076 能夠提供桌面 GPU 的AI計(jì)算性能,同時(shí)只需消耗1/10的功率。
今年9月12日,Arm和IBM基于14nm工藝技術(shù)開(kāi)發(fā)了一種可編程的最小面積相變存儲(chǔ)器(PCM)模擬內(nèi)存計(jì)算(CiM)加速器,稱為AON-CiM。
荷蘭公司Innatera正在模仿大腦處理感覺(jué)數(shù)據(jù)的機(jī)制來(lái)研發(fā)處理器。其處理器基于專有的模擬混合信號(hào)計(jì)算架構(gòu),利用脈沖神經(jīng)網(wǎng)絡(luò)的計(jì)算能力在狹窄的功率范圍內(nèi)提供突破性的認(rèn)知性能。這些器件以前所未有的超低功耗和短響應(yīng)延遲相結(jié)合,在傳感器邊緣的應(yīng)用中實(shí)現(xiàn)了高性能的始終在線模式識(shí)別功能。據(jù)其官往所述,該處理器的每瓦性能比傳統(tǒng)的微處理器和數(shù)字加速器高達(dá)10,000倍。
美國(guó)初創(chuàng)公司Rain Neuromorphics受大腦啟發(fā),也在進(jìn)行模擬計(jì)算芯片的研究。該公司的模擬計(jì)算芯片使用ReRAM憶阻元件陣列,并結(jié)合了從 NAND 閃存工藝中借鑒的 3D 制造技術(shù),商業(yè)芯片使用閃存等存儲(chǔ)單元,以極低的功耗計(jì)算神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理。
國(guó)內(nèi)方面,成立于2020年底的每刻深思是模擬計(jì)算的早期玩家。上文中提到的喬飛副研究員也是每刻深思的創(chuàng)始人之一,每刻深思致力于將清華大學(xué)的集成電路智能感知實(shí)驗(yàn)室成果落地。
說(shuō)到模擬計(jì)算,其是否與現(xiàn)在比較火的存算一體這種新型架構(gòu)有關(guān)系,二者之間的區(qū)別又在哪里?關(guān)于這點(diǎn),每刻深思CEO鄒天琦告訴筆者,存算一體在卷積和神經(jīng)網(wǎng)絡(luò)中的功耗確實(shí)可以做到很低,但其外部仍需要AD、DA的接口,所以從整機(jī)和系統(tǒng)的角度來(lái)考慮的話,其帶來(lái)的顛覆性優(yōu)勢(shì)并不是特別明顯。
而模擬計(jì)算可以把外部的AD、DA接口都省去,當(dāng)傳感器在最前端把信號(hào)輸出來(lái)之后,在模擬域就可以完成信號(hào)處理和卷積神經(jīng)乘和加運(yùn)算。因此從系統(tǒng)角度來(lái)看,模擬計(jì)算比純數(shù)字計(jì)算或者存算一體+外設(shè)接口的方案能帶來(lái)更大程度功耗的下降,甚至可以達(dá)到1個(gè)數(shù)量級(jí)的功耗下降。
模擬計(jì)算的技術(shù)挑戰(zhàn)
雖然模擬計(jì)算的優(yōu)勢(shì)頗多,但從理論上來(lái)看,模擬計(jì)算仍存在一些挑戰(zhàn)。
挑戰(zhàn)一是,特別復(fù)雜的計(jì)算需要大量的模擬塊,所以最后做出來(lái)的芯片是大而昂貴的。可采取的解決方法是將這些復(fù)雜的計(jì)算問(wèn)題分割成更小的子問(wèn)題,搭配數(shù)字計(jì)算,進(jìn)行混合計(jì)算。
再一個(gè)挑戰(zhàn)是,雖然理論上模擬計(jì)算芯片可以直接與傳感器和執(zhí)行器之間互聯(lián),但是要實(shí)現(xiàn)這種遠(yuǎn)距離的隨意互聯(lián)是有很大難度的,所需的布線和連接規(guī)則都存在尺寸和復(fù)雜的難題。如同現(xiàn)在的Chilet,3D堆疊是一個(gè)很好的實(shí)現(xiàn)Chiplet互聯(lián)的方式,各大廠商也是對(duì)互聯(lián)提出了自己的方式,現(xiàn)在更是成立了UCIe聯(lián)盟來(lái)共同推進(jìn)Chiplet的發(fā)展。3D堆疊或許也能夠解決模擬計(jì)算連接的問(wèn)題。
然后是在提高精度方面,模擬計(jì)算芯片也存在著難度。在數(shù)字電路中,只需添加位即可提高精度。但是模擬計(jì)算則需要使用更大的芯片面積。所以這也是為何模擬計(jì)算適用于低精度應(yīng)用的原因。
在實(shí)際商業(yè)化方面,喬飛指出,模擬計(jì)算不像是CPU這樣的通用計(jì)算平臺(tái),它是面向特定領(lǐng)域的計(jì)算,其與算法和應(yīng)用結(jié)合的非常緊密,所以第一個(gè)要解決的是軟硬件聯(lián)合設(shè)計(jì)的問(wèn)題,在底層架構(gòu)變成模擬計(jì)算單元后,上層的算法該如何去適配或優(yōu)化。第二個(gè)挑戰(zhàn)是電路設(shè)計(jì)上的難題,找到針對(duì)應(yīng)用的最合適的模擬計(jì)算電路,因?yàn)槟M計(jì)算的電路實(shí)現(xiàn)方案很多,如何構(gòu)建更加穩(wěn)定魯棒的實(shí)現(xiàn)、校準(zhǔn)和糾錯(cuò)也是很重要的問(wèn)題。
鄒天琦也表示,如同半導(dǎo)體領(lǐng)域的其他新技術(shù),模擬計(jì)算大約需要在3-5年的時(shí)間大規(guī)模的商業(yè)化落地。要實(shí)現(xiàn)在模擬域的處理并不簡(jiǎn)單,由于模擬電路本身的特性,在實(shí)際的工程化或量產(chǎn)過(guò)程中會(huì)存在一些問(wèn)題,而這些問(wèn)題并不能像數(shù)字處理那樣通過(guò)仿真和FPGA的驗(yàn)證來(lái)實(shí)現(xiàn),只能通過(guò)流片和測(cè)試,不斷的進(jìn)行迭代,才能達(dá)到預(yù)期的效果,實(shí)現(xiàn)比數(shù)字電路低很多的信號(hào)處理算法的計(jì)算。
結(jié)語(yǔ)
我們處于一個(gè)創(chuàng)新多變的半導(dǎo)體時(shí)間節(jié)點(diǎn),各種新材料、新架構(gòu)、新封裝、新設(shè)計(jì)涌現(xiàn),這些都是時(shí)代和技術(shù)演進(jìn)的產(chǎn)物。在人工智能的下一代,模擬計(jì)算,或者更恰當(dāng)?shù)恼f(shuō),模擬數(shù)字混合將成為新的嘗試。
審核編輯:劉清
評(píng)論