女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm Cortex-A320 CPU助力嵌入式設備實現高能效AI計算

Arm社區 ? 來源:Arm社區 ? 2025-02-27 17:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 物聯網事業部產品管理總監 Tim Menasveta

Arm Cortex-A320 是目前最小型的 Armv9-A 架構 CPU。得益于該處理器的推出,開發者現在能有更多選擇決定如何處理物聯網邊緣人工智能 (AI) 工作負載。然而,面對多樣化的選擇,要確定適合特定 AI 應用的處理器,系統開發者需要通過比較基于 Arm Cortex-A、Arm Cortex-M 和 Arm Ethos-U NPU 的設備及其可能的搭配進行決策。除了成本的考量,開發者還需了解各款處理器具備的 AI 功能,以及自身的項目可以通過何種軟件開發流程實現簡化。

嵌入式設備中實現高能效 AI 計算

近年來,嵌入式設備中的 AI 計算效率突飛猛進。Arm 的 M 和 A 處理器架構的提升使得每單位能耗的機器學習 (ML) 推理性能呈數倍增長。特別是在 M 處理器架構上,基于 Armv8.1-M 架構的 Cortex-M52、Cortex-M55 和 Cortex-M85 CPU 集成了可編程的 Helium 向量擴展,從而解鎖了在微控制器級設備上實現新 AI 用例的能力。此外,得益于可伸縮向量擴展 (SVE2) 的引入,基于 Armv9 架構的 Cortex-A 處理器(如最新推出的 Cortex-A320)相較其前代產品進一步提升了 AI 性能。而 Ethos-U 系列 NPU 的最新一代產品 Ethos-U85,尤其在處理 Transformer 網絡時,表現更為高效。

如何選擇合適的硬件?

每種架構在不同方面各有優勢。在考慮哪款硬件最適合時,原始性能應與設計靈活性相權衡。此外,還需要將包括 CI/CD 要求在內的軟件開發流程納入考量。

性能

滿足所需的 AI 處理性能至關重要。Cortex-A 處理器本就是一款面向多種應用的可編程處理器,集成了 Neon/SVE2 向量引擎,旨在加速神經網絡和各種向量化代碼,并能原生支持多種數據類型。而帶有 Helium 向量引擎的 Cortex-M 處理器具備相同特性,且更適用于成本和能耗相對有限的目標用例。相比之下,包含 Ethos-U85 在內的 Ethos-U NPU 則專為處理神經網絡算子而設計,尤其還具備了量化的 8 位整數數據權重的能力,對于可以映射到這些 NPU 硬件的網絡算子,其任務表現十分高效。

基于 Armv9 架構的最新一代 Cortex-A CPU 支持 BF16 等廣泛的數據類型。此外,引入的新矩陣乘法指令顯著提高了神經網絡的處理性能。關于如何通過 SVE2 實現矩陣乘法的詳細解釋,推薦閱讀《Neon、SVE 和 SME 實現矩陣-矩陣乘法的比較》。

Cortex-M55 是首款集成 Helium 向量技術的 Cortex-M 處理器,此后推出的 Cortex-M85 也集成了這一技術。兩者都實現了雙節拍 (dual-beat) Helium 配置,每個時鐘周期可執行多達八次的 8 位整數乘積累加運算 (MAC) 操作。此外,Helium 還原生支持 FP16、FP32 等其他數據類型。

最后,在具有量化數據類型的模型上,具體來說是 INT8 權重,以及 INT8 或 INT16 激活數據,Ethos-U NPU 可以非常高效地處理神經網絡。這種設計雖會限制其適用的數據類型,但可提高 NPU 的執行效率。

評估處理器在實際 AI 工作負載中性能的方法之一,是分析其每種數據類型和每個時鐘周期的理論 MAC 執行能力。由于神經網絡處理使用大型數據集,因此內存訪問性能是另一大關鍵因素。不過在本例中,我們著重于處理器密集 (processor-bound) 性能,而非內存密集 (memory-bound) 性能。

神經網絡處理速率通常受限于底層硬件的 MAC 操作速率。雖然實際的網絡處理性能因網絡結構而異,但下表所示的的理論 MAC 處理速率提供了硬件能力的指標。

921337dc-f4ba-11ef-9310-92fbcf53809c.png

軟件

另外一個考慮的因素是每個硬件方案的軟件支持。Arm 為包括 Cortex-A、Cortex-M 和 Ethos-U 等在內的各類 AI 硬件解決方案提供全面的開源運行時支持軟件。Arm 為各種 ML 框架和運行時提供硬件加速支持,包括 PyTorch、ExecuTorch、Llama.cpp、TensorFlow 和 LiteRT(通過 XNNPACK)。任何 ML 框架都可通過優化,進而充分利用 Arm 的 AI 特性。在 Arm 處理器上執行的運行時可利用 CMSIS-NN(針對 Cortex-M/Helium)和 Arm Compute Library 或 Arm KleidiAI(針對 Neon/SVE2 中的 INT8 和 BF16)等軟件加速庫。Vela 編譯器是一個通過優化模型來實現高效部署的離線工具,可在 Ethos-U 上進一步調優可執行二進制文件,從而實現更卓越的硬件性能。

何時使用 Ethos-U?

一些具有明確定義的 AI 工作負載的邊緣 AI 用例可以通過將神經網絡處理卸載到專用 NPU 上,從而釋放主處理器的計算密集型任務,并由此獲益。如前所述,Ethos-U NPU 在處理具有量化的 8 位整數權重的神經網絡時非常高效。Transformer 網絡特別適合在 Ethos-U85 上運行。然而,Ethos-U85 NPU 需由一個主處理器(可以是 Cortex-M 或 Cortex-A)進行驅動。

主處理器與 Ethos-U 間可以有多種配置方式。Ethos-U 可由像 Cortex-M55 等啟用 Helium 的 Cortex-M 處理器驅動使用。目前市面上已有這種系統級芯片 (SoC) 配置的示例。近期,在小語言模型 (SLM) 上運行生成式 AI 工作負載愈發受到業界關注。Ethos-U 與啟用 Helium 的 Cortex-M 處理器相結合,是此類用例的上佳之選。

此外,還有基于 Cortex-A 處理器的 SoC 集成了基于 Cortex-M 核心的 ML 島與 Ethos-U。這類 SoC 通常適合運行 Linux 等功能豐富的操作系統,并支持更大、更靈活的內存系統。Cortex-M CPU 擁有 32 位可尋址內存地址空間,能實現直接內存地址映射,而像 Cortex-A320 等更新款的 Cortex-A 處理器則具有 40 位內存可尋址空間,還可以通過內存管理單元 (MMU) 的虛擬內存尋址。

隨著大語言模型 (LLM) 的執行逐漸轉向邊緣 AI 設備,擁有更大和更靈活的內存系統可以簡化較大參數規模(例如大于 10 億參數的 LLM)模型的執行。Cortex-M 和 Ethos-U85 的組合很適合于越來越受到歡迎的小語言模型。Cortex-M 處理器具有 4GB 的尋址空間,并保留了其中一些空間用于系統功能。隨著 LLM 模型規模的增長,具有更大和更靈活內存的 Cortex-A 系統將變得至關重要。

Arm 近期又宣布了另一種配置方式,稱為“直接驅動 (direct drive)”,即 Cortex-A 處理器直接驅動 Ethos-U NPU。這種配置無需專門的 Cortex-M 作為“驅動”處理器。Ethos-U85 的 Linux 驅動程序可在 Cortex-A 主控制器上運行。

9242db86-f4ba-11ef-9310-92fbcf53809c.png

利用 Cortex-A320滿足邊緣設備的生成式 AI 需求

邊緣 AI 系統開發者現在有更多的選擇來優化物聯網中最靠近邊緣側的 AI。無論選擇 Cortex-M、Cortex-A 還是 Ethos-U 加速系統,每種選擇都可滿足不同的需求。Cortex-A320 處理器能夠直接驅動 Ethos-U85,這讓設計人員獲得了更多的靈活性。作為 Arm 最小型、最高能效的 Armv9-A 處理器,Cortex-A320 在提高邊緣側 AI 能效的同時,適應嵌入式系統中生成式 AI 演進的需求。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19890

    瀏覽量

    235100
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9351

    瀏覽量

    377412
  • AI
    AI
    +關注

    關注

    88

    文章

    35105

    瀏覽量

    279558
  • 嵌入式設備
    +關注

    關注

    0

    文章

    116

    瀏覽量

    17415

原文標題:如何為 AI 應用選擇合適的 Arm 邊緣 AI 解決方案?

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Arm 推出 Armv9 邊緣 AI 計算平臺,以超高能與先進 AI 能力賦能物聯網革新

    架構的超高能 CPU——Arm Cortex-A320 以及對 Transformer 網絡具有原生支持的 Ethos-U85
    的頭像 發表于 03-06 11:43 ?1313次閱讀
    <b class='flag-5'>Arm</b> 推出 Armv9 邊緣 <b class='flag-5'>AI</b> <b class='flag-5'>計算</b>平臺,以超<b class='flag-5'>高能</b><b class='flag-5'>效</b>與先進 <b class='flag-5'>AI</b> 能力賦能物聯網革新

    Banana Pi 發布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算嵌入式開發

    RZ/V2N——近期在嵌入式世界2025上新發布,為 AI 計算嵌入式系統及工自動化提供強大支持。這款全新的計算平臺旨在滿足開發者和企業用
    發表于 03-19 17:54

    Firefly支持AI引擎Tengine,性能提升,輕松搭建AI計算框架

    `Tengine 是OPEN AI LAB 為嵌入式設備開發的一個輕量級、高性能并且模塊化的引擎。基于ARM平臺高效的計算
    發表于 08-13 15:58

    嵌入式ARM的體系與內核

    嵌入式系統已經廣泛地應用到當今各個領域,小到掌上的數字產品,大到汽車、航天飛機。除了我們能聯想到的單片機外,還有ARM等其他嵌入式系統應用的也越來越廣泛。特點:由8位處理向32位過渡,由單核向多核
    發表于 05-18 14:36

    嵌入式AI平臺有哪些?

    11.2.2 修剪神經網絡 21.2.3 嵌入式終端優化 21.3 GPU 21.4 ARM 31.5 FPGA結構的并行計算 41.5.1 介紹 41.5.2 流水線計算 41.5
    發表于 10-27 06:45

    ARM推出全新超高能Cortex-A32處理器,擴大嵌入式與物聯網產品陣容

     2016年2月24日,北京訊——ARM針對下一代嵌入式產品推出ARM? Cortex?-A32,為超
    發表于 02-24 09:37 ?1482次閱讀

    基于ARM Cortex_A8的嵌入式Linux開發的平臺構建

    基于ARM Cortex_A8的嵌入式Linux開發的平臺構建
    發表于 09-25 13:45 ?15次下載
    基于<b class='flag-5'>ARM</b> <b class='flag-5'>Cortex_A</b>8的<b class='flag-5'>嵌入式</b>Linux開發的平臺構建

    ARM仿真器與嵌入式系統設計講解

    嵌入式系統,有些嵌入式系統還包含操作系統, 但大多數嵌入式系統都是是由單個程序實現整個控制邏輯。 所謂ARM仿真器,即用于調試基于
    發表于 10-18 13:24 ?1次下載

    arm_cortex_m3_嵌入式_交大_PPT

    arm_cortex_m3_嵌入式_交大_PPT
    發表于 10-26 09:36 ?21次下載
    <b class='flag-5'>arm_cortex</b>_m3_<b class='flag-5'>嵌入式</b>_交大_PPT

    使用ARM核設計實現嵌入式CPU的AHB接口說明

    本文分析了基于芯核的嵌入式CPU 設計的特點,提出了設計基于ARM 核的嵌入式CPU內AHB 接口存在的空洞問題。結合體系的設計,給出了通過
    發表于 10-18 16:13 ?3次下載
    使用<b class='flag-5'>ARM</b>核設計<b class='flag-5'>實現</b><b class='flag-5'>嵌入式</b><b class='flag-5'>CPU</b>的AHB接口說明

    arm嵌入式主板的優缺點

    嵌入式主板是嵌入設備里面做控制、數據處理使用的CPU板 ,常見的有兩類,即基于X86的嵌入式主板和基于RISC的
    發表于 07-17 11:17 ?7215次閱讀

    Arm發布新的Cortex-A78C CPU,預計將為移動設備供電

    Arm于去年五月宣布了將為下一代移動和嵌入式處理器提供動力的技術。其中包括Cortex-A78 CPU和匹配的Mali-G78 GPU。這些可能主要用于移動
    的頭像 發表于 11-05 15:41 ?2096次閱讀

    ARM_Cortex-A8嵌入式原理與系統設計.pdf

    ARM_Cortex-A8嵌入式原理與系統設計.pdf
    發表于 02-08 15:07 ?14次下載

    ARM Cortex-A53嵌入式開發平臺Android手冊

    電子發燒友網站提供《ARM Cortex-A53嵌入式開發平臺Android手冊.pdf》資料免費下載
    發表于 04-28 15:10 ?0次下載

    詳解Arm Cortex-A320 CPU的特性

    Arm Cortex-A320 CPU 的推出具有重要的里程碑意義。作為首個基于 Armv9 架構的超高能
    的頭像 發表于 02-27 17:13 ?1037次閱讀