物聯(lián)網(wǎng)端點位于嵌入式視覺的前沿。而且,與其他前沿領(lǐng)域一樣,也存在挑戰(zhàn),尤其是功率效率。
機器視覺已經(jīng)迅速在世界上找到了自己的位置。可以看到橙子并從樹上摘下橙子。 凝視檢測針對危險的無意識駕駛員。在工廠車間周圍移動的工業(yè)機器人依靠它來進行安全的障礙物檢測。
物聯(lián)網(wǎng)端點位于嵌入式視覺的前沿。而且,與其他前沿領(lǐng)域一樣,也存在挑戰(zhàn),尤其是功率效率。可以在不超過節(jié)點功率容量的情況下進行極端邊緣的推理嗎?
這個問題值得考慮。這是因為在邊緣進行推理可以避免將數(shù)據(jù)(只有其中一些是可操作的)不加選擇地傳輸?shù)皆贫诉M行分析。這降低了存儲成本。此外,云訪問會損害延遲并抑制實時能力。旅行數(shù)據(jù)是易受攻擊的數(shù)據(jù),因此更可取端點處理。這也有利于降低支付給網(wǎng)絡(luò)運營商的成本。
SoC 架構(gòu)的新方法
然而,對于所有這些好處,存在一個主要的絆腳石。使用傳統(tǒng)微控制器的設(shè)備的功耗限制在極端情況下阻礙了神經(jīng)網(wǎng)絡(luò)推理。
傳統(tǒng)的微控制器 (MCU) 性能無法滿足周期密集型操作。方法喚醒解決方案可能依賴機器視覺進行對象分類,而這又需要卷積神經(jīng)網(wǎng)絡(luò) (CNN) 來執(zhí)行矩陣乘法運算,從而轉(zhuǎn)化為數(shù)百萬乘法累加 (MAC) 計算(圖 1)。
圖 1. 迄今為止,微控制器無法高效處理大容量乘法累加 (MAC) 的問題一直是一個絆腳石。
MCU 存在各種神經(jīng)網(wǎng)絡(luò)。但是,這些解決方案未能成為生產(chǎn)就緒型解決方案,因為所需的性能無法超越功率障礙。
克服電源性能困境是為什么采用全新方法處理處理器角色和 SoC 架構(gòu)的解決方案是有意義的。采用這種新方法需要了解物聯(lián)網(wǎng)端點需要處理三個工作負(fù)載才能成功進行推理。一種是程序性的,一種是用于數(shù)字信號處理的,一種是執(zhí)行大量 MAC 操作的。解決每個工作負(fù)載獨特需求的一種方法是在 SoC 中結(jié)合用于信號處理和機器學(xué)習(xí)的雙 MAC 16 位 DSP 和用于程序負(fù)載的 Arm Cortex-M CPU。
這種混合多核架構(gòu)利用了 DSP 雙內(nèi)存庫、零循環(huán)開銷和復(fù)雜的地址生成。使用它可以處理任何工作負(fù)載組合:例如,網(wǎng)絡(luò)堆棧、RTOS、數(shù)字濾波器、時頻轉(zhuǎn)換、RNN、CNN 和傳統(tǒng)的人工智能類搜索、決策樹和線性回歸。圖 2 顯示了當(dāng) DSP 架構(gòu)優(yōu)勢發(fā)揮作用時,神經(jīng)網(wǎng)絡(luò)計算性能如何提高 2 倍甚至 3 倍。
圖 2. 矩陣乘法 (NxN) 基準(zhǔn)。
僅僅改變架構(gòu)是不夠的
無論是嵌入式視覺系統(tǒng)還是其他依賴顯著提高神經(jīng)網(wǎng)絡(luò)效率的系統(tǒng),實現(xiàn)混合多核架構(gòu)都很重要。然而,當(dāng)目標(biāo)是將功耗降低到 mW 范圍時,還需要做更多的工作。認(rèn)識到這一需求,Eta Compute 獲得了連續(xù)電壓和頻率縮放 (CVFS) 專利。
CVFS 克服了動態(tài)電壓頻率縮放或 DVFS 遇到的問題。DVFS 確實利用了降低功率的選項,即降低電壓。缺點是執(zhí)行此選項時最大頻率會降低。這個問題將 DVFS 的有效性限制在一個狹窄的范圍內(nèi)——一個由嚴(yán)格限制數(shù)量的預(yù)定義離散電壓電平定義,并限制在幾百 mV 的電壓范圍內(nèi)。
相比之下,為了在最有效的電壓下實現(xiàn)一致的 SoC 操作,CVFS 使用自定時邏輯。有了自定時邏輯,每個設(shè)備都可以連續(xù)自動調(diào)整電壓和頻率。CVFS 比 DVFS 更有效,也比亞閾值設(shè)計更容易實施,CVFS 在另一個重要方面也與這些不同。關(guān)鍵區(qū)別在于,上面提到的混合多核架構(gòu)使 CVFS 已經(jīng)在做的好事成倍增加。
極端邊緣的生產(chǎn)級
處于極端邊緣的端點,例如用于人員檢測的端點,有特定的需求。盡管任何人都可以將已發(fā)布的神經(jīng)網(wǎng)絡(luò)用于這些物聯(lián)網(wǎng)端點,但它們并沒有優(yōu)先滿足這些需求。使用領(lǐng)先的設(shè)計技術(shù)優(yōu)化這些網(wǎng)絡(luò)可以解決這個問題。
除了使用先進的設(shè)計方法之外,我們在 Eta Compute 采用的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法集中在我們的生產(chǎn)級神經(jīng)傳感器處理器 ECM3532(圖 3)上。它融合了混合多核架構(gòu)和 CVFS 技術(shù)的所有優(yōu)點。
圖 3. Eta Compute ECM3532 神經(jīng)傳感器處理器的混合多核架構(gòu),其中將 Arm Cortex-M3 處理器、NXP CoolFlux DSP、512KB 閃存、352KB SRAM 和支持外設(shè)集成在 SoC 中,使推理達(dá)到極致在可實現(xiàn)的 mW 范圍內(nèi)的邊緣。
獲得的知識
諸如圖 4 所示結(jié)果的測試表明,為了將深度學(xué)習(xí)引入嵌入式視覺系統(tǒng),電力成本不必上升到不可接受的水平。雖然沒有一根魔杖可以為耗電的神經(jīng)網(wǎng)絡(luò)提供支持,但一種將 MCU 電源效率和 DSP 優(yōu)勢與網(wǎng)絡(luò)優(yōu)化相結(jié)合的方法可以幫助應(yīng)用程序避免僅依賴云計算導(dǎo)致的安全性、延遲和低效率問題。
圖 4. 在人員檢測模型的測試中,包括攝像頭在內(nèi)的平均系統(tǒng)功率達(dá)到了 5.6mW。對于該測試,速率為每秒1.3次推理,但進一步細(xì)化優(yōu)化應(yīng)將平均系統(tǒng)功率進一步降低至 4mW,同時將速率提高到每秒 2 次推理。
審核編輯:郭婷
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2927文章
45950瀏覽量
388533 -
攝像頭
+關(guān)注
關(guān)注
61文章
4953瀏覽量
97725 -
機器視覺
+關(guān)注
關(guān)注
163文章
4516瀏覽量
122340
發(fā)布評論請先 登錄
NXP技術(shù)白皮書:AIoT人工智能物聯(lián)網(wǎng) 將人工智能與現(xiàn)實世界相連

村田NPO電容在哪些頻率范圍內(nèi)具有較好的性能?
蜂窩物聯(lián)網(wǎng)怎么選
為什么選擇蜂窩物聯(lián)網(wǎng)
宇樹科技在物聯(lián)網(wǎng)方面
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
ad7124上電開啟診斷結(jié)果,顯示LDO不在范圍內(nèi),是哪里出錯了?
ADS1230怎么處理才能使信號在芯片量程范圍內(nèi)?
請問ldc1101是否能夠檢測到圓球在擺幅范圍內(nèi)不同位置的相對距離?
ADS131A02 0-50的溫度范圍內(nèi),ADC輸出漂移0.1%是怎么回事?
中國蜂窩物聯(lián)網(wǎng)連接數(shù)領(lǐng)跑全球

全天候全覆蓋的衛(wèi)星通訊方案如何在物聯(lián)網(wǎng)系統(tǒng)中應(yīng)用

機器人視覺的應(yīng)用范圍
芯品# 物聯(lián)網(wǎng)市場性能最高的 NPU

評論