女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用基于SRAM的測試芯片實現加速AI推理

石玉蘭 ? 來源:小點zze ? 作者:小點zze ? 2022-07-21 15:50 ? 次閱讀

瑞薩電子開發了一種新的內存處理器 (PIM) 技術,用于在低功耗邊緣設備中加速 AI 推理。用于基于 SRAM 技術的測試芯片實現了 8.8 TOPS/W 的運行卷積神經網絡 (CNN) 工作負載,這是最常用于圖像識別的算法類型。

瑞薩電子現有一代 AI 推理加速器基于其動態可重構處理器 (DRP) 架構,達到 1 TOPS/W 量級,足以在終端節點實現實時圖像識別。該公司表示,新的 PIM 技術在 TOPS/W 方面幾乎提高了一個數量級,并且可能成為在端點實施增量學習的基礎。

內存處理器是一種越來越流行的人工智能推理工作負載技術,其中涉及將大量輸入數據與權重因子相乘。在 PIM 設備中,當讀取數據時,在存儲器本身中執行乘法累加 (MAC) 操作。

在瑞薩電子設備中,存儲權重的存儲單元可以通過控制單元的輸出開關與輸入數據相乘,從而控制輸出電流。測量位線中的電流然后有效地將所有輸出加在一起。以這種方式在內存中執行 MAC 操作,通過避免不必要的數據傳輸,消除了內存和處理器之間的瓶頸。

三元SRAM

在接受 EETimes 的獨家采訪時,瑞薩電子高級首席工程師 Koichi Nose 解釋了用于提高精度和降低功耗的新技術。

“傳統的內存處理器技術無法為大規模計算提供足夠的精度,”Nose 說,并強調了傳統上需要解決的變通辦法,以規避由工藝變化引起的低可靠性。“二進制數據也不足以表達一些復雜的神經網絡……它會導致準確性下降。”

新的 PIM 技術是三元的,這意味著每個單元都具有三種狀態:-1、0 或 1。Nose 解釋說,這允許表示比二進制單元更復雜的數據。

如果三進制存儲單元保持+1或-1,則電流可以流入位線,但如果存儲單元存儲0,則沒有電流流動,這有助于保持低功耗。

“此外,重量數據可以很容易地擴展到任意位數,”Nose 說。“神經網絡中的權重數據是多位信息,一個零或一個大的正負值。在二進制單元中表達多位符號信息很困難。所提出的存儲器電路可以通過利用三元單元和簡單的數字計算塊的組合來輕松表達任意符號位操作......因為這可以支持每個用戶所需的不同計算精度,用戶可以優化精度和精度之間的平衡能量消耗。”

能量消耗

Nose 表示,傳統的 PIM 拓撲使用 ADC 將位線電流轉換為輸出數據值,但盡管 ADC 很有效,但它們耗電大且占用寶貴的芯片面積。

瑞薩電子的 PIM 技術使用標準 SRAM 宏中的 1 位讀出放大器作為比較器,與可靈活控制電流的復制單元(相當于存儲單元的當前生成部分)結合使用。將復制單元電流與三元單元電流進行比較有效地檢測三元單元的電流輸出。

零檢測器還有助于降低功耗。如果 MAC 運算結果等于 0,則停止比較器的操作以節省能量。

“在 [典型] 神經網絡電路中,幾乎所有節點都分配為零;只有少量的神經元被激活,大約 1%。所以幾乎所有的計算結果都歸零,”Nose 說。“激活零檢測器電路會關閉比較器并有助于降低功耗。通過將比較器 AD 轉換器技術和零檢測器技術相結合,可以將功耗降低一個數量級。”

工藝變化

在 SRAM 陣列中,制造工藝的變化經常導致故障。由于這些工藝變化,當將數據寫入具有顯著不同電氣特性的單個單元時,就會出現錯誤。

“為了避免這個問題,我們使用了神經網絡的相同特征——幾乎所有節點都分配為零,”他說。“我們可以通過改組數據來避免計算錯誤,以便將零存儲在 [不利] 受影響的單元格中。”

在三進制存儲單元中,如果存儲零,則位線中沒有電流流動,因此求和結果不依賴于單元電流。

如何識別受到不利影響的細胞?

“我們正在開發其他一些錯誤單元檢測方法,但在這個芯片中,我們使用了一種簡單的方法,”他說。“我們測量神經網絡的輸出并檢查結果是否正確,以識別[不存儲]正確輸出值的錯誤單元。”

測試芯片

Renesas 的 3×3 mm 測試芯片基于 12nm 工藝技術構建,由四個集群組成,每個集群可以同時運行不同的 AI 工藝。在每個集群中,神經網絡權重數據存儲在 PIM 塊中,MAC 運算結果存儲在標準 SRAM 塊中。

測試芯片包含 4 Mb 的 PIM 計算內存和 1.5 MB 的 SRAM,足以在不使用外部存儲器的情況下評估緊湊型 CNN。該芯片實現了8.8 TOPS/W的功率效率。

原型 AI 模塊中的測試芯片的簡單演示還結合了小型電池、微控制器、相機和其他外圍設備,表明只需 5 mW 即可實現用于實時人員檢測的推理。

審核編輯 黃昊宇
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52160

    瀏覽量

    436049
  • sram
    +關注

    關注

    6

    文章

    781

    瀏覽量

    115662
  • AI
    AI
    +關注

    關注

    87

    文章

    34173

    瀏覽量

    275333
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    AI推理的存儲,看好SRAM

    看到了其前景并提前布局。AI推理也使得存儲HBM不再是唯一熱門,更多存儲芯片AI推理芯片結合,
    的頭像 發表于 03-03 08:51 ?1510次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲,看好<b class='flag-5'>SRAM</b>?

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發布了 Ironwood,這是其第七代張量處理單元 (TPU),專為推理而設計。這款功能強大的 AI
    的頭像 發表于 04-12 11:10 ?1538次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規模思考與推理AI 模型新引擎?

    電子發燒友網報道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據悉,該芯片預計于今年晚些時候面向 Go
    的頭像 發表于 04-12 00:57 ?2053次閱讀

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理

    Oracle 數據庫與 NVIDIA AI 相集成,使企業能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和推理軟件與 Oracle 的
    的頭像 發表于 03-21 12:01 ?567次閱讀
    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI
    的頭像 發表于 03-20 15:03 ?542次閱讀

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首次實現
    發表于 03-19 15:24 ?307次閱讀
    Oracle 與 NVIDIA 合作助力企業<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......

    ASIC、GPU)與FPGA的協同工作模式,例如通過芯片合封或系統集成,實現高性能的AI推理。 3.利用FPGA的獨特優勢? 實時性與低延遲:在需要高實時性和低延遲的應用中(如自動駕駛
    發表于 03-03 11:21

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武當C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也將全面支持基于DeepSeek的多模態大模型推理。這一消息標志著黑芝麻智能在推
    的頭像 發表于 02-14 15:04 ?492次閱讀

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?615次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    Neuchips展示大模型推理ASIC芯片

    領先的AI專用集成電路(ASIC)解決方案提供商Neuchips在CES 2024上展示了其革命性的Raptor Gen AI加速芯片(以前稱為N3000)和Evo PCIe
    的頭像 發表于 01-06 17:30 ?618次閱讀

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的
    的頭像 發表于 10-29 14:12 ?1772次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的
    的頭像 發表于 10-27 10:03 ?666次閱讀
    NVIDIA助力麗蟾科技打造<b class='flag-5'>AI</b>訓練與<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解決方案

    AMD助力HyperAccel開發全新AI推理服務器

    提高成本效率。HyperAccel 針對新興的生成式 AI 應用提供超級加速芯片 IP/解決方案。HyperAccel 已經打造出一個快速、高效且低成本的推理系統,
    的頭像 發表于 09-18 09:37 ?758次閱讀
    AMD助力HyperAccel開發全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務器

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產算力,東華軟件打造安全可信的基于私有化大模型的“智多型(A.I.Cogniflex)”
    的頭像 發表于 07-31 10:51 ?1428次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、
    的頭像 發表于 07-24 11:38 ?1628次閱讀