眾多高計算強度的應用正在被部署到邊緣設備上
當下,業(yè)界迫切需要一種高效率的硬件
既能高效率地執(zhí)行復雜算法
又能適應這種技術的快速演進
在此背景下,賽靈思 Kria K26 SOM應運而生
為 ML 邊緣應用開發(fā)提供了更加理想的選擇
賽靈思的研究結果表明,K26 SOM 提供了比英偉達 Jetson Nano 高出大約 3 倍的性能。此外,它的單位功耗性能較之英偉達 Jetson TX2 提升了 2 倍。對于 SSD MobileNet-v1 這樣的網(wǎng)絡,K26 SOM 的低時延、高性能深度學習處理單元 (DPU)提供了比 Nano 高出 4 倍甚至更高的性能。
01
與未來兼容的 Kria K26 SOM
智能應用除了要求亞微秒級的時延,還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構為基礎,Kria K26 SOM 提供了業(yè)界一流的單位功耗性能和更低的總體擁有成本,使之成為邊緣設備的理想選擇。
原始計算能力
就在邊緣設備上部署解決方案而言,硬件必須擁有充足的算力,才能處理先進 ML 算法工作負載。我們可以使用各種深度學習處理單元 (DPU) 配置對 Kria K26 SOM 進行配置,還能根據(jù)性能要求,將最適用的配置集成到設計內(nèi)。
支持更低精度的數(shù)據(jù)類型
深度學習算法正在以極快的速度演進發(fā)展,各種更低精度的數(shù)據(jù)類型和定制數(shù)據(jù)正在進入使用。傳統(tǒng)的 GPU 廠商已無法滿足當前的市場需求,而 Kria K26 SOM 能夠支持全系列數(shù)據(jù)類型精度,如 PF32、INT8、二進制和其他定制數(shù)據(jù)類型。
低時延與低功耗
為了改善軟件可編程能力,GPU 架構需要頻繁訪問外部 DDR。這種做法非常低效,有時候會對高帶寬設計要求構成瓶頸。相反,Zynq MPSoC 架構具有高能效,它的可重配置能
力便于開發(fā)者設計的應用減少或不必訪問外部存儲器。這不僅有助于減少應用的總功耗,也通過降低端到端時延改善了響應能力。
靈活性
與數(shù)據(jù)流固定的 GPU 不同,賽靈思硬件提供了靈活性用來專門地重新配置數(shù)據(jù)路徑,從而實現(xiàn)最大吞吐量并降低時延。此外,可編程的數(shù)據(jù)路徑也降低了對批處理的需求,而批處理是 GPU 的一個重大不足,需要在降低時延或提高吞吐量之間做出權衡取舍。Kria SOM 靈活的架構已在稀疏網(wǎng)絡中展示出巨大潛力。
02
與英偉達 Jetson 性能比較
深度學習模型性能比較
根據(jù)測試數(shù)據(jù),所有模型在 K26 SOM 上的性能數(shù)值均優(yōu)于英偉達 Jetson Nano。而且對于 SSD Mobilenet-V1 等部分模型,吞吐量則為 Jetson Nano 的四倍以上,為 Jetson Tx2 的兩倍左右,從下表可以很容易地看到顯著的吞吐量提升。
功耗測量
邊緣設備提供最佳性能這點非常重要,但同時必須降低能耗。賽靈思測量了英偉達和賽靈思 SOM 模塊在執(zhí)行具體模型時發(fā)生的峰值功率,結果很明顯,K26 SOM 優(yōu)于 Jetson Nano
3.5 倍,優(yōu)于 Jetson TX2 2.4 倍。
實際應用性能比較
為了分析實際用例,我們選擇了一種準確檢測和識別車輛牌照的基于機器學習的應用。將 Uncanny Vision 行業(yè)領先的 ANPR 算法部署在 Kria SOM 上后,與英偉達用 Deepstream-SDK 完成的“車牌識別”的公開數(shù)據(jù)進行比較,結果說明,Uncanny Vision 的 ANPR 流水線在針對 KV260 入門套件進行優(yōu)化后,實現(xiàn)了超過 33fps 的吞吐量,顯著優(yōu)于英偉達基準測試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為 ANPR 集成商和 OEM 廠商提供了優(yōu)于競爭對手的開發(fā)靈活性。
實際應用測試顯示,K26 SOM 不僅在標準性能比較中表現(xiàn)極其優(yōu)異,并且在為開發(fā)者提供加速整體 AI 和視覺流水線所需的原始性能時,效率也更高。通過對比,在標準的基準測試領域之外,競爭解決方案傾向于提供較低效率水平,而且功耗較高。
編輯:jq
-
gpu
+關注
關注
28文章
4946瀏覽量
131236 -
人工智能
+關注
關注
1806文章
49019瀏覽量
249474 -
SOM
+關注
關注
0文章
66瀏覽量
16127
原文標題:白皮書 | Kria K26:邊緣端視覺 AI 理想平臺
文章出處:【微信號:賽靈思,微信公眾號:Xilinx賽靈思官微】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
AMD Kria KV260視覺AI入門套件更新升級
【嘉楠堪智K230開發(fā)板試用體驗】K230機器視覺相關功能體驗
Made with KiCad(126):Antmicro OV5640 雙攝像頭子板
Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)
邊緣計算與AI融合:技術創(chuàng)新與產(chǎn)業(yè)變革的交匯點

機器人開發(fā)套件 Kria KR260

邊緣計算盒子有什么發(fā)展情景和應用案例?

Arm發(fā)布基于Armv9架構的Cortex-A320處理器
國產(chǎn)EDA億靈思?接入DeepSeek

賽靈思低溫失效的原因,有沒有別的方法或者一些見解?
Silicon Labs攜手Eta Compute簡化邊緣ML開發(fā)
TI解讀:嵌啟未來 邊緣AI不邊緣

云端ai開發(fā)環(huán)境怎么樣
智能安全帶是時代應運而生的產(chǎn)物
EOS智慧營銷設計平臺:精準高效可擴展的營銷新選擇

評論