女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CEVA的NeuPro-M AI處理器有助于提高能效

CEVA ? 來源:CEVA ? 作者:CEVA ? 2022-08-31 17:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 技術愈來愈受歡迎,在汽車、視覺處理和電信等領域的應用也越來越多。目前,AI 正在通過實現眾多新功能來取代許多傳統算法,例如為智能手機攝像頭提供去噪和圖像穩定功能。

在眾多實施 AI 的產品都將數據發送到云數據中心的同時,也凸顯出一些主要缺點:延遲增加、隱私風險以及需要互聯網連接。

設計人員希望創建一些 AI 系統,使其在通常采用電池供電的邊緣設備上運行,但這也帶來了新的挑戰,既實現需求的性能和功能與功耗之間的平衡,尤其是在持續快速且越來越多的需要更多計算能力的情況下。

AI 處理挑戰

雖然眾多不同邊緣設備的要求都各不相同,但它們基本上都是為了最大程度地提高性能,降低功耗,并盡量減少所需的物理空間。設計工程師如何作出合適的權衡才能應對這些挑戰?

現有 AI 處理器的性能往往受到帶寬限制,并且在將數據移入和移出外部內存時也會遇到瓶頸,導致系統利用率低,這也就意味著性能/功率數值(以 TOPS/Watt 為單位)受到限制。

另一個重要問題是如何提前計劃滿足未來需求。由于 AI 處理器芯片的部署周期通常較長,因此 AI 解決方案必須能夠適應未來的新要求,包括支持尚未定義的新神經網絡。這意味著所有解決方案都必須足夠靈活、可擴展,才能隨著性能需求的增加而提升。

AI 系統還必須安全,并且必須符合最高的質量和安全標準,尤其是對于汽車應用和其他人工智能系統可能涉及生命攸關的決策的應用。例如,如果一位行人走到自動駕駛汽車前面,留給司機的反應時間是非常短的。

為了幫助克服這些挑戰,就需要一個全面的軟件工具鏈,簡化客戶實施,減少開發時間。

AI 處理器逐步提升

讓我們以視覺機器學習為例,看看 AI 解決方案提供商如何應對這些挑戰。

ce05a752-2848-11ed-ba43-dac502259ad0.png

圖 1:NeuPro-M AI 處理器框圖,顯示內存架構

首先,如果我們考慮帶寬限制性能和內存訪問權限問題,可以通過動態配置的兩級內存體系架構來加以解決(參見圖 1)。這樣可以最大限度地降低與外部 SDRAM 進行數據傳輸產生的功耗。通過以分層方式使用本地內存資源,實現 90% 以上的利用率,防止協處理器和加速器出現“數據匱乏”情形,同時還可使每個引擎獨立處理。

優化 AI 處理的另一種方法是通過使處理器架構支持混合精度的神經引擎。這種方法可以處理 2 到 16 位的數據,減少系統帶寬消耗,除此之外,還能按每個用例靈活運行混合精度網絡。此外,當數據從外部內存寫入或讀取時,數據壓縮之類的帶寬減少機制還能實時壓縮數據和權重。這種方法減少了所需的內存帶寬,進一步提高了性能,顯著降低了總功耗。

ce3a3210-2848-11ed-ba43-dac502259ad0.png

圖2:四引擎內核細分

這是 CEVA 的 NeuPro-M AI 處理器采用的方法,是一種用于 AI/ML 推理工作負載的獨立異構處理器架構。以此解決方案為例,圖 2 顯示了如何在四 AI 引擎之間分割機器視覺應用,在本案例中是對前方道路進行車道檢測。圖像數據從外部內存或外部接口加載,然后分成四個拼圖,每個拼圖由不同的引擎處理。換句話說,每個引擎可以各自承擔一個子圖或不同的任務,例如物體檢測和車道識別,以便優化特定應用的性能。

每個引擎都有自己的片上 L1 內存,以便最大程度地減少瓶頸或延遲。這也意味著,一旦配置好,AI 處理器就幾乎可以完全獨立地運行了,并且在大多數情況下,可以運行“從頭到尾”的“融合”操作流水線,完全無需訪問內部內存且幾乎很少訪問外部內存。如此一來,AI 處理器將變得更加靈活,并有助于提高能效。

我們在本文開始時討論的要求還包括提供面向未來的靈活解決方案。完全可編程的矢量處理單元 (VPU) 可以在同一引擎 L1 數據上與協處理器并行工作,確保新的神經網絡拓撲以軟件方式提供支持

機器視覺優化

有許多優化可以提升特定 AI 應用的性能。在視覺處理過程中,Winograd 轉換就屬于這種優化之一。這是執行卷積(例如傅里葉變換)的另一種高效方法,只需使用以前所需的 MAC(乘累加運算)數量的一半。

對于 3x3 卷積層而言,Winograd 轉換可以將性能提高一倍,同時保持與原始卷積方法相同的精度。

另一個基本的優化是使用稀疏化,即能夠忽略數據或權重中的零。通過避免乘以零,性能得到了改善,同時保持了準確性。雖然某些處理器需要結構化數據才能享受稀疏化帶來的好處,但使用完全支持非結構化稀疏化的處理器可以獲得更好的結果。

通常,AI 系統需要將某些優化功能或網絡固有操作(如 Winograd 轉換、稀疏機制、自關注操作和縮放)交給專門的引擎。這意味著需要先卸載數據,然后在處理后再重新加載數據,這樣一來就會增加延遲并降低性能。對比之下,更好的選擇就是將加速器直接連接到引擎本地共享 L1 內存,或者在大多數情況下,進行融合操作,即從一個協處理器到另一個協處理器的即時端到端處理,而不需要在執行過程中訪問任何內存。

這些優化有多重要?圖 3 顯示,與 CEVA 的上一代 AI 處理器相比,單引擎 NPM11 內核在典型的 ResNet50 實施中實現了性能提升。您可以看到,基本的、原生的操作實現了近五倍的性能提升。

添加 Winograd 轉換,然后添加稀疏引擎可以進一步提高性能,最高可達上一代處理器的 9.3 倍。最后,對一些網絡層使用混合精度(8x8 和低分辨率 4x4)權重和激活,在可以忽略不計的精度損失的情況下,進一步提高了性能--實現了比上一代處理器近15倍的性能提升,比原生處理快 2.9 倍。

ce7dd100-2848-11ed-ba43-dac502259ad0.png

圖 3:NPM11(單引擎內核)性能改進

結論

我們已經看到了新內存架構和本地“負載平衡”控制實現(流水線處理對比連續處理相同數據),最大限度地減少外部訪問的情形,并充分利用了硬件,可以在不需要更多功耗的情況下提高性能,以及 Winograd 轉換和稀疏性等優化進一步提升性能的方法。

總而言之,現代 AI 處理器可以提供完全可編程的硬件/軟件開發環境,具有要求苛刻的邊緣 AI 應用所需的性能、能效和靈活性,這使設計工程師能夠從其系統內的有效AI實現中受益,而不會增加超出其便攜式邊緣設備預算的功耗。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • dsp
    dsp
    +關注

    關注

    556

    文章

    8158

    瀏覽量

    357510
  • 藍牙
    +關注

    關注

    116

    文章

    6078

    瀏覽量

    174009
  • 帶寬
    +關注

    關注

    3

    文章

    994

    瀏覽量

    42166
  • CEVA
    +關注

    關注

    1

    文章

    189

    瀏覽量

    76584
  • AI處理器
    +關注

    關注

    0

    文章

    94

    瀏覽量

    9743

原文標題:CEVA的NeuPro-M AI 處理器如何迎接邊緣 AI 挑戰

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AMD嵌入式處理器為您的應用添能助力

    AMD 面向嵌入式應用打造高性能、高能處理器,全方位滿足網絡、存儲、汽車、工業、零售、醫療、測試與測量等領域的各種需求。無論您的應用是涉及 AI 加速、機器視覺、安全數據
    的頭像 發表于 07-07 14:09 ?550次閱讀

    優化電機控制以提高能

    ,VFD中從絕緣柵雙極型晶體管(IGBT)到碳化硅(SiC)技術的升級,也帶來了更高能和更快開關速度。 變頻驅動(VFD)及其技術影響 變頻驅動(VFD)通過實現對電機轉速和轉矩
    發表于 06-11 09:57

    如何基于Kahn處理網絡定義AI引擎圖形編程模型

    本白皮書探討了如何基于 Kahn 處理網絡( KPN )定義 AI 引擎圖形編程模型。KPN 模型有助于實現數據流并行化,進而提高系統的整體性能。
    的頭像 發表于 04-17 11:31 ?348次閱讀
    如何基于Kahn<b class='flag-5'>處理</b>網絡定義<b class='flag-5'>AI</b>引擎圖形編程模型

    Arm Cortex-A320 CPU助力嵌入式設備實現高能AI計算

    ,要確定適合特定 AI 應用的處理器,系統開發者需要通過比較基于 Arm Cortex-A、Arm Cortex-M 和 Arm Ethos-U NPU 的設備及其可能的搭配進行決策。除了成本的考量,開發者還需了解各款
    的頭像 發表于 02-27 17:17 ?759次閱讀
    Arm Cortex-A320 CPU助力嵌入式設備實現<b class='flag-5'>高能</b><b class='flag-5'>效</b><b class='flag-5'>AI</b>計算

    Ceva與賽微科技、AIZIP及Edge Impulse深化合作

    Ceva公司近期與賽微科技和AIZIP攜手,共同為Ceva-NeuPro-Nano嵌入式人工智能NPU(神經網絡處理器)提供了一系列預優化的人工智能模型。這些模型涵蓋了關鍵詞探知、人臉識別和說話者
    的頭像 發表于 01-16 16:14 ?519次閱讀

    CEVA Ceva-NeuPro-Nano NPU在AIoT和MCU市場大獲成功

    CEVA公司近日宣布,其屢獲殊榮的Ceva-NeuPro-Nano嵌入式AI NPU在人工智能物聯網(AIoT)和MCU市場上取得了顯著進展,成功贏得了多家客戶的青睞。這款NPU配備了增強的開發
    的頭像 發表于 01-15 17:23 ?793次閱讀

    Ceva-NeuPro-Nano NPU榮獲EE Awards Asia年度最佳IP/處理器產品獎

    近日,全球領先的半導體產品和軟件IP授權許可廠商Ceva公司宣布,其Ceva-NeuPro-Nano NPU在近期于中國臺北舉辦的亞洲金選獎(EE Awards Asia)中榮獲年度最佳IP/處理器
    的頭像 發表于 12-25 15:36 ?607次閱讀

    XD08M3232紅外感應單片機擁有哪些配置實現高性能處理能力

    。 內置兩路軌到軌運算放大器 :能夠對低幅度的輸入信號進行有效放大。在不同場景下,通過放大傳感信號,可以提高信號處理的效率和準確性。這有助于在數據
    發表于 11-23 15:08

    XD08M3232紅外感應單片機擁有哪些配置實現高性能處理能力

    來的額外處理負擔,使得單片機可以更高效地對數據進行處理,從而有助于實現高性能的處理能力。 內置兩路軌到軌運算放大器 :能夠對低幅度的輸入信號進行有效放大。在不同場景下,通過放大傳感
    發表于 11-07 14:04

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經驗,擬按照要求準備相關體會材料。看能否
    發表于 09-09 15:36

    關于一些有助于優化電源設計的新型材料

    眾所周知,人們對更高電源效率的追求正在推動性能的全方位提升。材料科學的進步對于優化電源設計和開發更高效、更緊湊和更可靠的解決方案發揮著關鍵作用。下文列出了一些有助于優化電源設計的新材料。
    的頭像 發表于 08-29 15:26 ?763次閱讀

    MSPM0-高級控制計時有助于實現更好的控制和更好的數字輸出

    電子發燒友網站提供《MSPM0-高級控制計時有助于實現更好的控制和更好的數字輸出.pdf》資料免費下載
    發表于 08-28 11:30 ?0次下載
    MSPM0-高級控制計時<b class='flag-5'>器</b><b class='flag-5'>有助于</b>實現更好的控制和更好的數字輸出

    國產新型AI PC處理器亮相上海

    處理器
    北京中科同志科技股份有限公司
    發布于 :2024年08月01日 09:21:01

    有助于提高網絡設備性能的FRAM SF25C20(MB85RS2MT)

    有助于提高網絡設備性能的FRAM SF25C20(MB85RS2MT)
    的頭像 發表于 07-25 09:49 ?598次閱讀
    <b class='flag-5'>有助于</b><b class='flag-5'>提高</b>網絡設備性能的FRAM SF25C20(MB85RS2MT)

    基于英特爾至強6能處理器優化原生分布式數據庫OceanBase

    隨著數字化、在線化、智能化的演進,企業面臨著指數級遞增的海量存儲需求和挑戰,同時,企業需要降本增效,進行更好更智能的數據決策。基于英特爾 至強 6 能處理器的分布式數據庫OceanBase在性能
    的頭像 發表于 07-24 15:16 ?850次閱讀
    基于英特爾至強6能<b class='flag-5'>效</b>核<b class='flag-5'>處理器</b>優化原生分布式數據庫OceanBase