女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI應用的絕佳組合:NPU+DSP!

AI智勝未來 ? 來源:半導體行業觀察 ? 2023-05-19 15:27 ? 次閱讀

如今,人工智能應用正在滲透入大眾生活的方方面面,自動駕駛技術的行人檢測、數碼相機的圖像質量增強、AI美顏、語音識別……這些人工智能應用的背后離不開硬件的支持。雖然神經網絡處理器(NPU)在性能、效率和算法靈活性方面已優于可編程DSP,但這并不意味著 AI 處理中不需要 DSP。恰恰相反,對于許多應用的AI子系統來說,神經網絡處理器(NPU)與矢量DSP是絕佳組合。

哪些應用需要用到DSP?NPU和DSP該如何更好的配置?行業內是否有現成的解決方案可供選擇?本文將針對這些問題一一進行講解。

DSP在AI應用中發揮重要作用


從眾多神經網絡處理需求來看,例如卷積神經網絡 (CNN) 或轉換器,任何可以執行乘法運算并移動大量數據的處理器最終都可以執行這些計算密集型模型。借助先進的量化技術,經過訓練的神經網絡的32位浮點輸出可以在 8 位整數控制器或處理器上運行,而且精度幾乎沒有降低。這意味著可以在 CPUGPU、DSP 甚至MCU上處理CNN推理,準確度不受影響。

目前在行業內通常用TOPS(每秒萬億次運算)來衡量AI處理器的性能,也稱之為“算力”。TOPS 的計算方式為:一個周期內可以完成的運算次數(一次乘積累加視為兩次運算)x最大頻率。這是很好的首次性能估算,因為大部分計算由對矩陣乘法的需求驅動,而矩陣乘法需要乘積累加運算。

按照這種計算方法,讓我們來看下不同處理器類型的理想TOPS。具有DSP擴展的CPU可以每個時鐘周期執行一次乘積累加 (MAC) 并以 2GHz的速度運行,其運算能力為:2GHz x 2次運算(包括乘積和累加)x 1 MAC/周期 = 4 GOPS 或 0.004 TOPS(1TOPS等于1000 GOPS)。以此類推,矢量DSP的理想TOPS為1.2,高端的NPU將達到255.6 TOPS。如表1中所示,從理想的算力能力上來看,神經處理單元 (NPU) 是獲得最高計算能力的最佳選擇。

8b657752-f614-11ed-90ce-dac502259ad0.png

表1 :各種處理器的大致性能范圍

誠然,計算能力固然重要,但一些應用對實時性能的要求也很高。如在汽車應用中,當一輛汽車以 70 英里/小時的速度沖向行人,需要迅速決定是否要剎車。多攝像頭配置、高分辨率、最低延遲,這些因素都對計算效率提出了更高要求,以幫助汽車做出生死攸關的決定。因此,我們需要更謹慎地選擇用于處理AI推理的處理器。

GPU在AI計算中也可以提供高性能,但由于其功耗和面積成本很高,對于實時應用來說難以接受,所以并未在上表中列出。事實上,上表中所列的每種處理器都需要不同級別的功率和面積才能達到所需的運算能力。對于實時應用來說,功耗和面積(與成本和可制造性直接相關)幾乎與性能同樣重要。理論上來說,NPU經過設計和優化,是執行神經網絡算法時性能、功耗和面積效率最高的處理器。

但是,并非每個AI應用都需要NPU提供的最高級別的神經網絡性能。如下圖1所示,不同的AI應用涵蓋從幾GOPS到數千TOPS的各種性能要求。當你的AI應用所需算力小于1 TOPS時,具有DSP擴展的CPU或者矢量DSP是比較理想的選擇;而當算力要求高于1 TOPS時,NPU的 AI 性能效率、功耗效率和面積效率毋庸置疑。

8b761b66-f614-11ed-90ce-dac502259ad0.png

圖 1:AI 應用有各種各樣的性能要求。

NPU 的最佳效率來自每個周期可以完成的大量乘積,以及一些專用于其他神經網絡運算(例如激活函數)的硬件。NPU 面臨的挑戰是如何實現最大硬件加速,從而最大限度地提高神經網絡效率,還要保持一定程度的可編程性。雖然現在全硬件神經網絡ASIC比可編程 NPU更高效,但AI技術發展迅速,AI SoC的生產周期很長,因此保持一定程度的可編程性至關重要。

而且,NPU是專用的神經處理器引擎,只能執行AI計算。如果將矢量DSP和NPU結合使用,利用矢量DSP對NPU進行支持,就可以提供最高性能和額外的可編程性。例如,在自動駕駛汽車中,需要利用NPU來尋找行人、識別街道標志、使用神經網絡進行雷達處理,在這些多應用處理中,系統可利用矢量DSP來為NPU進行額外篩選、雷達或LiDAR處理以及預處理和后處理。


NPU+DSP的三種配置方式


圖2顯示了在 AI 應用中將NPU和矢量DSP結合使用的各種可能性。在圖中所示的三種情況下,高分辨率圖像幀位于DDR內存中,等待在下一幀到達之前得到處理。

8ba2ef4c-f614-11ed-90ce-dac502259ad0.png

圖 2:矢量DSP和神經網絡性能的不同組合。

在第一種配置中(左側),矢量 DSP本身既可用于DSP處理也可用于一部分AI處理,這屬于運算能力低于 1 TOPS 的用例,這種配置需要大型DSP+小型AI。這種配置的具體示例是為永磁同步電機 (PMSM) 執行無傳感器磁場定向控制 (FOC) 的矢量 DSP。基于 DSP 的電機控制通過 AI 處理實現擴展,AI 處理的作用是執行位置監控,并將相關信息反饋到控制回路。AI 模型的采樣率和計算復雜性使其能夠與矢量DSP的AI功能相適應。

在第二種配置中(中間),AI SoC 需要很高的矢量DSP性能和AI 性能,這種配置是大型 AI+大型 DSP。當矢量DSP處理高度依賴DSP的任務時,需要用NPU為AI密集型任務提供的神經網絡加速作為補充。數碼相機就是這種配置,矢量 DSP 可以對 NPU 執行視覺處理以及預處理和后處理支持,而 NPU 則專用于對高分辨率圖像進行 CNN 或轉換器處理(對象檢測、語義分割、超分辨率等)。這些用例需要緊密集成的矢量 DSP 和 NPU 解決方案,而且可進行擴展以適應性能目標。

第三個配置是小型 DSP+大型 AI。所有的處理都集中在神經網絡上,雖然這些神經網絡通常可以在 NPU 中執行,但有一些更復雜的神經網絡模型需要矢量 DSP 的支持來執行浮點運算,如Mask-RCNN 的 ROI 池化和 ROI 對齊,或 Deeplab v3 使用的非整數比例因子。即使 AI SoC 不需要任何額外的 DSP 處理,納入一定程度的矢量 DSP 性能來支持 NPU 還是有好處的,這可以更好地適應未來的發展需求。


新思科技ARC EV7x能夠實現

矢量DSP和NPU緊密耦合


雖然市場上有多種矢量DSP和NPU供選擇,但對于第二種和第三種配置,最好選擇包含緊密集成處理器的 AI 解決方案。一些神經網絡加速器將矢量DSP嵌入到神經網絡解決方案中,這樣限制了矢量DSP用于外部編程。

而新思科技的ARC EV7x 視覺處理器是異構處理器,它將矢量DSP與可選的神經網絡引擎緊密耦合。為了提高客戶的靈活性和可編程性,ARC EV7x系列正在發展成為 ARC VPX 矢量 DSP 系列和 ARC NPX NPU 系列。VPX 和 NPX 是緊密耦合的 AI 解決方案。圖 3 顯示了這兩種處理器的粗略框圖及其互連方式。

8bce147e-f614-11ed-90ce-dac502259ad0.png

圖 3:新思科技 ARC VPX5 和 ARC NPX6 的緊密耦合型組合

ARC VPX DSP IP在基于超長指令字 (VLIW)/單指令多數據 (SIMD) 架構的并行 DSP 處理方面表現出色,并針對嵌入式工作負載的功耗、性能和面積 (PPA) 要求進行了優化。可將 VPX 系列配置為支持浮點和多種整數格式(包括用于 AI 推理的 INT8 運算)。VPX 系列在 128 位(VPX2、VPX2FS)、256 位(VPX3、VPX3FS)和 512 位(VPX5、VPX5FS)矢量字上運行,因此可提供多種性能,還可以從單核擴展到四核。這樣可以每個周期提供 16 個 INT8 MAC 至 512 個 INT8 MAC(在四核 VPX5 上使用雙 MAC 配置)。

ARC NPX NPU IP專用于 NN 處理,還針對實時應用的 PPA 要求進行了優化。該系列從每個周期 4096 個 MAC 的版本擴展到每個周期 96000 個 MAC 的版本,然后可以擴展到多個實例。NXP6 系列在單個 SoC 上的 AI 性能可從 1 TOPS 擴展到 1000 TOPS。它還針對 CNN 的最新神經網絡模型和新興的轉換器模型類別進行了優化。

如圖 3 所示,VPX 和 NPX 系列緊密集成。ARCsync 是額外的 RTL,可在處理器之間提供中斷控制。數據通過外部 NOC 或 AXI 總線傳遞,這類總線通常已在 SoC 系統中存在。雖然兩個處理器可以完全獨立運行,但 VPX5 能夠根據需要訪問 NPX6 的 L2 內存。

通用軟件開發工具鏈 ARC MetaWare MX 也支持 VPX5 和 NPX6 的緊密集成,該工具鏈支持 NXP 和 VPX 的任意組合。SoC 架構師可以使用這些可擴展處理器系列選擇 DSP 性能和 AI 性能的正確組合,以最大限度地提高性能并減少面積開銷。對于高度依賴 AI 的工作負載,“大型 AI,小型 DSP”配置的經驗法則是,每 8000 或 16000 個 MAC 為 NPX 配備一個 VPX5(具體取決于模型和工作負載)。對于 NPX6-64K 配置,建議至少使用四個 VPX5 內核。


結語


誠然,對于特定任務(例如行人對象檢測),神經網絡處理已經取代了 DSP 處理,但矢量 DSP 的 SIMD 功能與 DSP 支持功能和 AI 支持功能相結合,可使其成為 AI 系統的重要組成部分。隨著嵌入式應用對 AI 處理的需求持續增長,要實現靈活設計,建議的最佳做法是結合使用 NPU 和矢量 DSP,前者用于AI處理,后者用于提供對NPU支持和DSP處理,這樣有助于為快速發展的AI提供具有前瞻性的AI SoC。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4810

    瀏覽量

    102981
  • AI
    AI
    +關注

    關注

    88

    文章

    34488

    瀏覽量

    275949
  • 自動駕駛
    +關注

    關注

    788

    文章

    14233

    瀏覽量

    169833

原文標題:AI應用的絕佳組合:NPU+DSP!

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    40+TOPS NPUAI PC處理器開卷算力

    的人工智能任務。同時,微軟還提出,這款全新電腦搭配擁有全新神經處理單元NPU的芯片,可實現每秒超過40萬億次即40+TOPS的運算。那么也就是說,若要符合微軟給出的AI PC的定義,NPU的算力至少要達到40 TOPS。 ? 這
    的頭像 發表于 07-14 01:11 ?6058次閱讀
    40+TOPS <b class='flag-5'>NPU</b>,<b class='flag-5'>AI</b> PC處理器開卷算力

    超越CPU/GPU:NPU如何讓AI“輕裝上陣”?

    電子發燒友網報道(文/李彎彎)NPU是一種專門為人工智能(AI)計算設計的處理器,主要用于高效執行神經網絡相關的運算(如矩陣乘法、卷積、激活函數等)。相較于傳統CPU/GPU,NPU在能效比
    的頭像 發表于 04-18 00:05 ?1891次閱讀

    CEVA Ceva-NeuPro-Nano NPU在AIoT和MCU市場大獲成功

    CEVA公司近日宣布,其屢獲殊榮的Ceva-NeuPro-Nano嵌入式AI NPU在人工智能物聯網(AIoT)和MCU市場上取得了顯著進展,成功贏得了多家客戶的青睞。這款NPU配備了增強的開發
    的頭像 發表于 01-15 17:23 ?727次閱讀

    基于恩智浦 MCX N947 MCU 通過 NPU 實現 AI 咖啡膠囊識別方案

    本方案充分利用了恩智浦(NXP)高性能微控制器(MCU)MCX N947 集成的神經網絡處理單元(NPU)的強大性能,旨在開發一款具有真正智能化識別能力的 AI 咖啡膠囊識別的咖啡機。 通過
    的頭像 發表于 12-18 13:43 ?680次閱讀
    基于恩智浦 MCX N947 MCU 通過 <b class='flag-5'>NPU</b> 實現 <b class='flag-5'>AI</b> 咖啡膠囊識別方案

    使用 AMD Versal AI 引擎釋放 DSP 計算的潛力

    “Versal AI 引擎可以在降低功耗預算的情況下提高 DSP 計算密度,”高級產品營銷經理 Udayan Sinha 表示。這種效率使 Versal AI 引擎能夠在嚴格的功耗預算內處理最苛刻
    的頭像 發表于 11-29 14:07 ?1143次閱讀

    使用AMD Versal AI引擎加速高性能DSP應用

    AMD Versal AI 引擎使您能夠擴展數字信號處理( DSP )算力與面向未來的設計,從而適應當前和下一代計算密集型 DSP 應用。借助 Versal AI 引擎,客戶能以更低的
    的頭像 發表于 11-20 16:35 ?827次閱讀

    NPU的工作原理解析

    隨著人工智能技術的快速發展,深度學習算法在各個領域得到了廣泛應用。為了滿足日益增長的計算需求,NPU應運而生。 NPU的基本概念 NPU是一種專用硬件加速器,專門為深度學習算法設計。它通過優化
    的頭像 發表于 11-15 09:17 ?2612次閱讀

    NPU的市場前景與發展趨勢

    隨著人工智能技術的快速發展,神經網絡處理器(Neural Processing Unit,簡稱NPU)作為AI領域的關鍵硬件,其市場前景和發展趨勢備受關注。 一、NPU市場前景分析 市場需求
    的頭像 發表于 11-15 09:14 ?3166次閱讀

    NPU技術如何提升AI性能

    隨著人工智能技術的飛速發展,深度學習作為AI領域的核心驅動力,對計算能力的需求日益增長。NPU技術應運而生,為AI性能的提升提供了強大的硬件支持。 NPU技術概述
    的頭像 發表于 11-15 09:11 ?1333次閱讀

    什么是NPU芯片及其功能

    在人工智能(AI)技術迅猛發展的今天,NPU芯片已經成為推動這一領域進步的關鍵技術之一。NPU芯片,即神經網絡處理單元,是一種專門為深度學習算法設計的硬件加速器。 一、NPU芯片的概念
    的頭像 發表于 11-14 15:48 ?4850次閱讀

    NPU在深度學習中的應用

    隨著人工智能技術的飛速發展,深度學習作為其核心驅動力之一,已經在眾多領域展現出了巨大的潛力和價值。NPU(Neural Processing Unit,神經網絡處理單元)是專門為深度學習
    的頭像 發表于 11-14 15:17 ?1767次閱讀

    什么是NPU?什么場景需要配置NPU

    在人工智能(AI)技術如火如荼的今天,NPU神經處理單元(Neural Processing Unit)作為一種新興的硬件加速器,正在成為ARM主板配置中的新寵。與傳統的CPU和GPU相比,NPU
    的頭像 發表于 10-11 10:13 ?5862次閱讀
    什么是<b class='flag-5'>NPU</b>?什么場景需要配置<b class='flag-5'>NPU</b>?

    NXP推出集成NPU的MCU,支持AI邊緣設備!MCU實現AI功能的多種方式

    旨在顯著節省功耗,可在邊緣端提供高達172倍的AI加速。 ? MCU 集成NPU 支持AI 功能 ? 恩智浦推出的這款i.MX RT700內部集成了恩智浦自研的eIQ Neutron NPU
    的頭像 發表于 09-29 01:11 ?5104次閱讀

    深蕾半導體ASTRA AI詳細介紹

    ASTRA AI芯片是一種集成了多種計算單元(包括NPU/uNPU、GPU、CPU、DSP等)的異構計算系統級芯片(SOC),專為處理復雜的人工智能(AI)任務而設計。這種設計使得AS
    的頭像 發表于 09-12 16:49 ?874次閱讀
    深蕾半導體ASTRA <b class='flag-5'>AI</b>詳細介紹

    刷新AI PC NPU算力,AMD銳龍AI 9 HX 375領銜55 TOPS

    電子發燒友網報道(文/黃晶晶)最近AMD官網上線了銳龍AI 300系列中的最新成員銳龍AI 9 HX 375處理器。原本Ryzen AI 9 HX 370的NPU達到了50 TOPS,
    的頭像 發表于 08-07 00:28 ?4602次閱讀
    刷新<b class='flag-5'>AI</b> PC <b class='flag-5'>NPU</b>算力,AMD銳龍<b class='flag-5'>AI</b> 9 HX 375領銜55 TOPS