好吊爽视频,首页动漫亚洲欧美日韩,更新中文字幕在线电影

存算一體技術作為當下內存廠商和不少AI芯片公司都在全力鉆研的方向，已經有了不少成果展示，下一代智能存儲的產品均已呼之欲出了。但新技術的新生期就是這樣，不斷有新的初創企業冒頭，不斷有新的架構和路線面世，而今年的HotChips34上，就有這么兩個存算一體技術的分享，在現有的存算一體生態上做出了創新，再度為這條賽道上的激烈競爭添油加醋。

1PB/s帶寬的千核RISC-V AI推理加速器

存算一體技術需要解決的，往往都是AI運算上的問題，比如訓練和推理等等，所以不少做存算一體公司與AI芯片公司并無二致。而AI推理的出現為芯片設計者提出了三大關鍵挑戰，一是不斷提升的算力和功耗要求，不說是存算一體芯片了，GPU、FPGA、ASIC等AI加速器都在往這個方向卷；二是神經網絡的格局一直在變化，現有的芯片可能缺乏跟上節奏的擴展性和靈活性；第三則是推理精度的缺失，在某些業務中精度的缺失可能只是意味著虧損，但在ADAS這樣的應用中，就很有可能危及人身安全。

加拿大本土AI初創公司Untether AI就打算從計算的角度來解決AI推理問題，早在2020年他們就推出了runAI200這款加速器芯片，不過該芯片基于臺積電16nm工藝，集成了200MB的SRAM，算力最高也只有500 TOPS（INT8），顯然不能滿足高性能的AI推理需求，但他們的思路卻從一開始就和其他存算一體公司不同。

我們常見的存算一體技術無疑就是近存計算和存內計算這兩種，前者基于馮諾依曼架構，主要還是完成加快數據轉移的過程，后者通過模擬技術來完成乘法累加運算，再利用數字處理器來完成其他運算。

Untether AI卻提出了存間計算（At-MemoryComputation），將雙向的計算邏輯單元放在SRAM之間。如此一來不僅能提供大規模并行卻又簡短的直接連接，也能提供獨立優化過的內存，提升效率和帶寬，根據Untether AI所說，存間計算恰好能夠解決AI加速的痛點。

Boqueria與競品的對比/ Untether AI

為此，Untether AI推出了Boqueria，一個算力高達2PFLOPS、能效比高達30TFLOPS/W的存間計算AI推理加速器芯片。Boqueria基于臺積電7nm打造，頻率高達1.35GHz，集成了729個存儲體、238MB的片上SRAM和1458個RISC-V核心，SRAM內存帶寬可以達到1PB/s。

每個存儲體中包含2個RISC-V核心，各管理4個行控制器。行控制器之間獨立運行，每個行控制器控制64個SIMD處理單元，用于完成矩陣向量乘法運算。這些處理單元支持INT4、INT8、FP8和BF16這四種常見數據格式，而且依Untether AI看來，FP8是精度、吞吐量和能效平衡上最好的一個，更不用說Untether AI在處理單元上加入了零檢測，進一步拉高了能效比。

Boqueria架構不同規模下的功耗與算力對比/ Untether AI

Boqueria上的RISC-V核心由Untether AI自己客制化的，本身基于RV32EMC指令集的同時，還加入了20多條專用于存間計算和推理加速的指令。Boqueria的另一大優勢，就是它極具擴展性的架構。最小的結構可以做到1W以下，也可以將其做成Chiplet集成在其他SoC中，或者是再大一點的M.2卡、PCIe5.0卡等。要想追求最高的性能，可以做成集成6個Boqueria芯片的PCIe5.0卡，SRAM容量可達1.4GB，LPDDR5 DRAM容量可達192GB，FP8算力可達12PFLOPS，更不用說除了芯片到芯片之間的通信外，Boqueria也支持PCIe卡之間的通信。

神經形態存內計算處理器

韓國科學技術院的研究團隊在本屆HotChips上展示了一種新型的存算一體處理器，結合了時下兩大新技術，神經形態和存內計算。傳統的存內計算處理器由于在矩陣乘法上的優勢，可以為深度學習解決最大的計算問題。可這個計算結果的準確性很大程度取決于處理器上DAC和ADC的精度。

可DAC和ADC的精度越高，模擬計算的結果也就越精確，也使得處理器的硬件開銷變高，無論是功耗還是面積都是如此，甚至有可能抵消存內計算原本的硬件優勢。在整個處理器的功耗中，高精度的ADC甚至可能會占據一半以上的功耗，甚至超過驅動器和控制器的總和。

不僅如此，在真實應用中由于低稀疏度，其能效比也遠不如紙面數據那么理想，比如面對CIFAR-10或ImageNet等數據集時，其能效比甚至可能會縮水到十分之一，徹底毀掉了存內計算處理器在算力和能耗上的雙重優勢。

于是韓國科學技術院團隊考慮用二進制脈沖信號的事件驅動運算來生成輸入稀疏，并將卷積神經網絡轉換成脈沖神經網絡，從而剔除ADC/DAC，并引入了四大特性。比如用最高有效位WordSkipping和早停法來減少位線活動，從而降低各種模式下的功耗，并用混合模式的神經元放電和電壓折疊技術，將該處理器的動態電壓范圍提高至3倍。

傳統存內計算架構與神經形態存內計算架構對比/ 韓國科學技術院

如此一來，他們打造出了一個高能效的神經形態存內計算架構，存內計算減少內存訪問和多字線驅動的優勢依然保留，但脈沖神經網絡的加入，卻消除了高精度ADC的需求。他們根據這一架構打造出了一個基于28nm工藝的存內計算芯片，總存儲大小只有32KB，頻率也只有200MHz，卻可以在100到200mW的系統功耗下，實現最高310.4 TOPS/W的高能效比。考慮到這一研究本身也是由三星贊助，這一思路未來很有可能被用于三星的MRAM存內計算芯片中去，屆時才會考慮使用更優的工藝來實現更高的性能，并做到更大的容量。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

內存

內存

+關注

關注
8

文章
3108

瀏覽量
74986
AI

AI

+關注

關注
87

文章
34198

瀏覽量
275358
存算一體

存算一體

+關注

關注
0

文章
106

瀏覽量
4589

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

2PFLOPS，存算一體迎來新的卷王

評論