女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

當人工智能引發能源問題,我們該怎么辦?應對措施是什么?

YCqV_FPGA_EETre ? 來源:FPGA開發圈 ? 作者:Quenton Hall ? 2021-03-17 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

賽靈思公司工業、視覺、醫療及科學市場 AI 系統架構師

在 “人工智能引發能源問題,我們該怎么辦 (一)”中,我們簡要介紹了更高層次的問題,這些問題為優化加速器的需求奠定了基礎。作為一個尖銳的問題提醒,現在讓我們通過一個非常簡單的圖像分類算法,來看一看與之相關聯的計算成本與功耗。

利用 Mark Horowitz 提供的數據點,我們可以考慮圖像分類器在不同空間限制下的相對功耗。雖然您會注意到 Mark 的能耗估計是針對 45nm 節點的,但業界專家建議,這些數據點將繼續按當前的半導體工藝尺寸進行調整。也就是說,無論工藝尺寸是 45nm 還是 16nm,與 FP32 運算相比,INT8 運算的能量成本仍然低一個數量級。

數據來源:Bill Dally(斯坦福),Cadence 嵌入式神經網絡峰會,2017 年 2 月 1 日

功耗可按以下方式進行計算:

功耗 = 能量(J)/運算*運算/s

從這個等式中我們可以看出,只有兩種方法能夠降低功耗:要么減少執行特定運算所需的功耗,要么減少運算的次數,或者一起減少。

對于我們的圖像分類器,我們將選擇ResNet50作為一個目標。ResNet 提供了近乎最先進的圖像分類性能,同時與眾多具有類似性能的可比網絡相比,它所需的參數(權重)更少,這便是它的另一大優勢。

為了部署 ResNet50,我們每次推斷需要大約 77 億運算的算力。這意味著,對于每一幅我們想要分類的圖像,我們將產生 7.7 * 10E9 的“計算成本”。

現在,讓我們考慮一個相對高容量的推斷應用,在該應用中,我們可能希望每秒對 1000 幅圖像進行分類。堅持沿用 Mark 的 45nm 能耗估算,我們得出以下結論:

功耗 = 4pJ + 0.4pJ/運算*7.7B運算/圖像 * 1000圖像/s

= 33.88W

作為創新的第一維度,我們可以將網絡從 FP32 量化到 8 位整數運算。這將功耗降低了一個數量級以上。雖然在訓練期間 FP32 的精度有利于反向傳輸,但它在像素數據的推斷時間幾乎沒有創造價值。大量研究和論文已經表明,在眾多應用中,可以分析每一層的權重分布并對該分布進行量化,同時將預量化的預測精度保持在非常合理的范圍內。

此外,量化研究還表明,8 位整數值對于像素數據來說是很好的“通用”解決方案,并且對于典型網絡的許多內層,可以將其量化到 3-4 位,而在預測精度上損失最小。由 Michaela Blott 領導的賽靈思研究實驗室團隊多年來一直致力于二進制神經網絡 (BNN) 的研究與部署,并取得了一些令人矚目的成果。(如需了解更多信息,請查看 FINN 和 PYNQ)

如今,我們與DNNDK的重點是將網絡推斷量化至 INT8。現代賽靈思 FPGA 中的單個 DSP 片可以在單個時鐘周期內計算兩個 8 位乘法運算,這并非巧合。在 16nm UltraScale+ MPSoC 器件系列中,我們擁有超過 15 種不同的器件變型,從數百個 DSP 片擴展到數千個 DSP 片,同時保持應用和/OS 兼容性。16nm DSP 片的最大 fCLK 峰值為 891MHz。因此,中型 MPSoC 器件是功能強大的計算加速器。

現在,讓我們考慮一下從 FP32 遷移到 INT8 的數學含義:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像*1000圖像/s

= 1.771W

Mark 在演講中,提出了一個解決計算效率問題的方法,那就是使用專門構建的專用加速器。他的觀點適用于機器學習推斷。

上述分析沒有考慮到的是,我們還將看到 FP32 的外部 DDR 流量至少減少四倍。正如您可能預料到的那樣,與外部存儲器訪問相關的功耗成本比內部存儲器高得多,這也是事實。如果我們簡單地利用 Mark 的數據點,我們會發現訪問 DRAM 的能量成本大約是 1.3-2.6nJ,而訪問 L1 存儲器的能量成本可能是 10-100pJ。看起來,與訪問內部存儲器(如賽靈思 SoC 中發現的 BlockRAM 和 UltraRAM)的能量成本相比,外部 DRAM 訪問的能量成本至少高出一個數量級。

除了量化所提供的優勢以外,我們還可以使用網絡剪枝技術來減少推斷所需的計算工作負載。使用賽靈思Vitis AI 優化器工具,可以將在 ILSCVR2012(ImageNet 1000 類)上訓練的圖像分類模型的計算工作負載減少 30-40%,精度損失不到 1%。再者,如果我們減少預測類的數量,我們可以進一步增加這些性能提升。現實情況是,大多數現實中的圖像分類網絡都是在有限數量的類別上進行訓練的,這使得超出這種水印的剪枝成為可能。作為參考,我們其中一個經過剪枝的 VGG-SSD 實現方案在四個類別上進行訓練,需要 17 個 GOP(與原始網絡需要 117 個 GOP 相比),在精度上沒有損失!誰說 VGG 沒有內存效率?

然而,如果我們簡單地假設我們在 ILSCVR2012 上訓練我們的分類器,我們發現我們通常可以通過剪枝減少大約 30% 的計算工作負載。考慮到這一點,我們得出以下結論:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像0.7*1000圖像/s

= 1.2397W

將此值與 FP32 推斷的原始估計值 33.88W 進行比較。

雖然這種分析沒有考慮到多種變量(混合因素),但顯然存在一個重要的優化機會。因此,當我們繼續尋找遙遙無期的“解決計算飽和的靈丹妙藥”時,考慮一下吳恩達斷言“AI 是新電能”的背景。我認為他并不是在建議 AI 需要更多的電能,只是想表明 AI 具有極高的價值和巨大的影響力。所以,讓我們對 ML 推斷保持冷靜的頭腦。對待機器學習推斷應保持冷靜思考,既不必貿然跟風,也無需針對高性能推斷設計采用液態冷卻散熱。

在本文的第三篇中,我們還將就專門構建的“高效”神經網絡模型的使用,以及如何在賽靈思應用中利用它們來實現更大的效率增益進行討論。在此之前,請參閱DNNDK SDK 用戶指南中的第 7 章,以便您更好地了解自適應硬件(位于邊緣和更遠位置)可能實現的推斷性能水平。
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 能源
    +關注

    關注

    3

    文章

    2026

    瀏覽量

    44647
  • 人工智能
    +關注

    關注

    1806

    文章

    49028

    瀏覽量

    249514

原文標題:人工智能引發能源問題,我們該怎么辦?(二)

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發圈】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Embarcadero:人工智能驅動發展我們的期望是什么

    人人都在談論人工智能我們的Visual Assist 團隊對人工智能有何期望?顯然,人工智能與我們息息相關——關于這一點的討論已經無需多言——但它也被過度炒作了。
    的頭像 發表于 01-15 10:46 ?463次閱讀

    盛顯科技:拼接處理器串口不受控制,怎么辦?

    我們在使用拼接處理器的過程中,因種種原因,有時候會出現串口不受控制的情況發生。出現這種情況時,用戶將無法通過串口對拼接處理器進行有效的控制或指令傳輸。那么您知道拼接處理器串口不受控制,怎么
    的頭像 發表于 11-15 11:56 ?519次閱讀
    盛顯科技:拼接處理器串口不受控制,<b class='flag-5'>該</b><b class='flag-5'>怎么辦</b>?

    嵌入式和人工智能究竟是什么關系?

    了數據傳輸的壓力,還提高了系統的響應速度。而在物聯網中,嵌入式系統更是一個核心的組成部分。通過將人工智能算法應用于物聯網設備,我們可以實現對海量數據的智能分析,從而為各種應用場景提供精準的決策支持
    發表于 11-14 16:39

    盛顯科技:投影融合處理器連接出現超時,怎么辦?

    了連接嘗試的失敗。這樣的情形無疑會給我們的使用帶來諸多不便與困擾。那么您知道投影融合處理器連接出現超時,怎么辦嗎?下面盛顯科技小編為您介紹: 投影融合處理器連接出現超時,可采取以下處理措施
    的頭像 發表于 11-06 10:58 ?567次閱讀
    盛顯科技:投影融合處理器連接出現超時,<b class='flag-5'>該</b><b class='flag-5'>怎么辦</b>?

    盛顯科技:投影融合處理器兼容性出現問題,怎么辦?

    ,解決這些兼容性問題顯得尤為重要。那么您知道投影融合處理器兼容性出現問題,怎么辦嗎?下面盛顯科技小編為您介紹: 投影融合處理器出現兼容性問題時,可以采取以下措施來解決: 一、檢查與
    的頭像 發表于 10-16 12:11 ?598次閱讀
    盛顯科技:投影融合處理器兼容性出現問題,<b class='flag-5'>該</b><b class='flag-5'>怎么辦</b>?

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    和國際合作等多個層面。這些內容讓我更加認識到,在推動人工智能能源科學融合的過程中,需要不斷探索和創新,以應對各種挑戰和機遇。 最后,通過閱讀這一章,我深刻感受到人工智能對于
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。在
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    深刻認識到人工智能在推動科學進步中的核心價值。它不僅是科技進步的加速器,更是人類智慧拓展的催化劑,引領我們邁向一個更加智慧、高效、可持續的科學研究新時代。
    發表于 10-14 09:12

    risc-v在人工智能圖像處理應用前景分析

    和使用技術,無需支付專利費或使用費。這大大降低了人工智能圖像處理技術的研發成本,并吸引了大量的開發者、企業和研究機構參與其生態建設。 靈活性則體現在RISC-V可以根據不同的應用場景進行定制和優化,從而
    發表于 09-28 11:00

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經驗,擬按照要求準備相關體會材料。看能否有助于入門和提高ss
    發表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    ! 《AI for Science:人工智能驅動科學創新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家一起去了解: 人工智能究竟幫科學家做了什么? 人工智能將如何改變
    發表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產業博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領域集產品
    發表于 08-22 15:00

    盛顯科技:投影融合處理器畫面出現閃爍或抖動,怎么辦?

    采取一系列專業而周密的處理措施來解決問題。那么您知道投影融合處理器畫面出現閃爍或抖動,怎么辦嗎?下面盛顯科技科技小編為您介紹: 投影融合處理器畫面出現閃爍或抖動,可采取以下措施進行處
    的頭像 發表于 08-14 17:00 ?755次閱讀
    盛顯科技:投影融合處理器畫面出現閃爍或抖動,<b class='flag-5'>該</b><b class='flag-5'>怎么辦</b>?

    盛顯科技:投影融合處理器出現顏色失真或偏色,怎么辦

    我們在使用投影融合處理器的過程中,因種種原因,有時候會遇到出現顏色失真或偏色的情況。此種情況的出現,會對視覺效果、信息傳遞和設備性能產生負面影響。因此,需要我們及時采取措施解決問題,以確保投影設備的正常運行和良好的展示效果表現。
    的頭像 發表于 07-31 17:09 ?551次閱讀
    盛顯科技:投影融合處理器出現顏色失真或偏色,<b class='flag-5'>該</b><b class='flag-5'>怎么辦</b>?

    FPGA在人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發表于 07-29 17:05