一家硅谷初創公司聲稱他們重塑了神經網絡數學計算,開發出一種互補型邊緣AI芯片。該芯片已經向客戶發售樣品,它并沒有使用通常的大型乘法累加單元陣列。據這家公司稱,該芯片的計算性能相當于4 TOPS,每瓦功耗可達55 TOPS/W。在低于20mW(以30fps運行YOLOv3測試)的功耗下,它可以達到數據中心級別的AI推理能力。
位于加州圣何塞的Perceive公司之前一直處于超級隱身模式。作為從Xperi獨立出來的子公司,Perceive兩年前正式成立,一直由其母公司出資支持。該團隊有41人,Xperi內部也有一個類似規模的團隊為該芯片開發應用。其創始CEO Steve Teig也是Xperi的CTO。他曾是Tabula的創始人兼CTO,Tabula是五年前倒閉的一家3D可編程邏輯初創公司;在此之前,他曾任Cadence CTO。
Teig解釋道,他們最初的想法是將Xperi的傳統圖像和音頻處理知識與機器學習相結合。 Xperi擁有DTS、IMAX Enhanced和HD Radio等品牌,其技術組合包括廣泛應用于數碼相機中處理紅眼問題和圖像穩定功能的圖像處理軟件,以及用于藍光光盤播放器的音頻處理軟件。
“我們從一張白紙開始,用信息論來思考:神經網絡到底做了什么樣的計算?是否有一種不同的方式來實現這種計算,以改變邊緣計算能做的事情?” Teig說。“經過幾年的努力,我們發現了它,然后我們決定……我們應該設計一款芯片來體現那些想法。”
Teig向Xperi董事會提出,成立一家新公司來開發這種芯片,在功率預算僅為20mW的邊緣設備上進行有意義的AI推理。最終,這款名為Ergo的7x7mm芯片可以在沒有外部RAM的情況下提供4 TOPS的計算性能(Teig解釋道,實際上其性能相當于4 TOPS的GPU)。Ergo支持多種類型的神經網絡,包括卷積網絡(CNN)和遞歸網絡(RNN),這與市場上針對CNN量身定制的許多解決方案形成了鮮明對比。Ergo甚至可以同時運行多個異構網絡。
Teig說:“唯一限制我們可以運行多少個神經網絡的因素是能夠集成多少內存。”Perceive已演示了以6000或7000萬個參數同時運行YOLOv3或M2Det,加上具有數百萬個參數的ResNet 28,再加上進行語音和音頻處理的LSTM或RNN。在具體應用中,這可能對應于同時進行圖像和音頻推理。
Perceive還聲稱Ergo芯片具有55 TOPS / W的超高能效。這個數字比一些競爭對手所聲稱的能效高出一個數量級。Perceiver的數據顯示,它在以每秒30幀的速度運行YOLOv3(這是一個具有6400萬個參數的大型網絡)時功耗只要20mW。
Perceive聲稱其Ergo芯片的效率高達55 TOPS / W,以30fps的速度運行YOLOv3,功耗僅20mW。
這種高能效源于采用了一些激進的電源門控和時鐘門控技術,它們充分利用了神經網絡處理的確定性屬性。與其它類型的代碼不同,它沒有分支,因此在編譯時時序是已知的。Perceive因而可以精確地知道需要開啟什么以及何時開啟。
Teig說:“在電池供電的情況下,這種芯片可以斷電,零毫瓦,還有微瓦級的運動傳感器或模擬麥克風來檢測可能感興趣的東西。我們可以一覺醒來,就加載好一個龐大的數據中心級別的神經網絡,并在大約50毫秒內運行它,包括解密。因此,我們只占用大約兩幀視頻的容量。”
但精心的硬件設計只是工作的一部分。
信息論
Teig說:“我們提出了一種不同的方式來表達所進行的計算本身及隨之而來的算法,并以一種新的方式來表達網絡本身,這才是我們的優勢所在。”
Perceive以信息論為出發點(信息論是一個科學分支,它包括將信號與噪聲區分開的數學方法),并使用其概念來研究從噪聲中提取信號所需的計算量。Teig以一個目標檢測網絡為例進行了說明。
“你將數百萬個像素交給網絡,只是想知道,這張照片中是否有一只狗?”Teig說。“圖片中除了狗的信號,其它所有東西都是噪音。信息論可以使之量化,即你要知道多少才能確定圖片中有一只狗,這真的可以通過數學方法使之精確確定。”
正如Teig所描述的那樣,主流神經網絡能夠根據看到的許多狗的圖片來進行歸納,因為它們至少可以發現噪聲中的一些信號,但這是以經驗法得到的,而不是嚴格的數學方法。這意味著信號會攜帶噪聲,從而使主流神經網絡變得非常龐大,并使它們容易受到對抗性例子和其它技巧的影響。
“在確定哪些部分需要保留、哪些部分只是噪音時,你越能用數學方法處理,就越能做好歸納工作,因而其它方面的開銷也就越少。” Teig說道。“我可以斷言,即使是目前的神經網絡也是從噪聲中提取信號,它們沒有以更加嚴謹的方式進行處理,因此承擔了額外開銷。”
這種信息論觀點是Perceive機器學習策略的基礎,這代表著一種新的神經網絡處理方式。
“實際上,這是從信息理論視角體現機器學習與芯片完美結合的最佳案例。”Teig聲稱。
芯片架構
以Teig擔任Tabula CTO的背景,你可能會認為這是一個基于可編程邏輯的硬件,然而事實并非如此。
“十年來,我一直深受可編程邏輯的影響,如何構建豐富的互連體系結構以實現高性能的并行計算,因為FPGA上很多運算都是大規模并行的,而且在FPGA上計算和內存之間的交互也非常密集。”Teig說。“這無疑影響了我在Perceive的工作,但是我們所擁有的并不是可編程邏輯本身。我們受到的是這種思維方式的影響,但架構本身是圍繞神經網絡的。”
Perceive的神經網絡結構具有可擴展性,初始芯片Ergo具有四個計算集,每個集都有自己的內存。盡管具體的細節仍在保密中,但Teig透露這些集群與其它AI加速器存在很大差異,其它AI加速器通常使用乘法累加單元(MAC)陣列來計算向量和矩陣的點積。
“我們沒有那樣做。”Teig說:“我們沒有采用MAC陣列。但結果是……我們的能效是市場上其它同類產品的20至100倍,原因是其他人都在做同一件事,而我們卻沒有。我們采用全新的方法演繹網絡,才使我們能夠實現如此高的效率。再加上機器學習技術,它可以發現網絡的這種表示形式,以及訓練網絡使其兼容芯片想要看到的內容。”
圖像和音頻
Ergo可以支持兩個攝像頭,并包括一個圖像處理單元,該單元可以作為預處理器來處理魚眼鏡頭圖像扭曲修正、伽瑪校正、白平衡和裁剪之類的事情。
“這不是什么花哨的功能,但是用硬件實現預處理顯然很有用,我們就在硬件上這么做了。” Teig說道。“而且我們也有等效的音頻,例如,我們可以使用多個立體聲麥克風實現波束成形。”
我們還提供一個帶有DSP模塊的Synopsis ARC微處理器,也可用于預處理;另外還提供一個Synopsis的安全模塊。
“我們還做了一件事,就是對所有內容進行絕對加密,以便在IoT環境中維持一定程度的安全。我們對網絡進行加密,對微處理器上運行的代碼進行加密,對接口進行加密,對所有內容加密。”Teig說。
該芯片為圖像和音頻外部的傳感器提供合適I / O,并支持外部閃存和/或微處理器,可進行空中升級,用來更新芯片上加載的神經網絡,或根據需要加載不同的網絡。
Ergo可提供樣品并隨附參考板,預計在2020年第二季度實現量產。
責任編輯:tzh
-
芯片
+關注
關注
459文章
52433瀏覽量
439788 -
神經網絡
+關注
關注
42文章
4813瀏覽量
103410 -
AI
+關注
關注
88文章
34964瀏覽量
278502
發布評論請先 登錄
Nordic收購 Neuton.AI 關于產品技術的分析
6TOPS算力NPU加持!RK3588如何重塑8K顯示的邊緣計算新邊界
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
BP神經網絡與卷積神經網絡的比較
什么是BP神經網絡的反向傳播算法
人工神經網絡的原理和多種神經網絡架構方法

評論