嵌入式視覺,基于計算機的視覺系統的演變和推斷,處理和解釋靜態和視頻圖像的意義,有望成為下一個重大技術成功案例。例如,考慮現在常見于蜂窩電話,平板電腦,膝上型計算機和專用計算機顯示器中的圖像傳感器和處理器。最初用于視頻會議和攝影,現在它們被用于其他應用,例如增強現實。
同樣,考慮消費者監控系統的迅速普及,由于攝像機及其子系統的穩步改進,以及日益用戶友好的相關監控軟件和服務的推動。此外,最近購買汽車的人已經知道,圖像傳感器在車輛周圍的許多地方越來越多地被發現,用于停車輔助,后視安全,即將發生的碰撞警報,車道偏離警告和其他功能。
前面提到的系統中使用的功能強大且經濟高效的圖像傳感器,處理器,存儲設備,I/O收發器和其他IC同樣適用于包含視覺的工業自動化應用的開發人員。基于手勢的人機界面在許多方面都是理想的,因此在這種環境中越來越普遍。首先,它們很直觀;為什么單擊鼠標或按鈕,甚至在觸摸屏上滑動手指以翻頁或在菜單頁面中移動,而只需將手掃過空中?
手勢基于用戶界面的UI還省去了經常妨礙基于觸摸的界面的環境限制;水和其他液體,非導電手套,污垢和細菌等。然而,第一代運動實施,如任天堂? Wii?游戲機系統所使用的具有其自身的局限性。實施該方案需要一個容易丟失,易損壞的手持式控制器。此外,控制器和系統之間的接口(通常通過藍牙?,ZigBee ?或其他一些RF無線技術實現)(如觸摸屏界面)易受功能影響由于環境EMI導致的性能下降。
相反,請考慮采用圖像傳感器的設計。基于視覺的手勢界面使用人體作為控制器而不是專用的額外硬件,解釋手,手臂和其他身體動作。它們具有相對的EMI免疫力;所有您需要確保的是足夠的操作員到設備的距離以及足夠的環境照明。除了基于手勢的控制,并且與前面提到的計算機和手機一樣,您可以使用面部識別技術不僅“解鎖”系統以響應有效操作員的面貌,還可以自定義配置系統例如,在任何特定操作員的情況下,登錄到特定的用戶帳戶。他們還可以提供比粗粒度加速度計或陀螺儀更廣泛的用戶控制選項套件基于動作界面。
Kinect案例研究
如果您的系統采用雙圖像傳感器(即立體聲或3-D)排列,您可用的手勢范圍會變得更加豐富,不僅包括水平和垂直運動但也有深度辨別力。立體聲傳感器設置還使面部識別軟件能夠更準確地辨別現實生活中的人與人的照片。 Microsoft?采用了一種不同的方法,稱為結構光,用Xbox ? 360的Kinect外設來識別深度(參見圖1)。
圖1:微軟用于Xbox 360游戲機的Kinect外設,已知的嵌入式視覺成功案例(a),結合了單色和拜耳圖案的全彩色圖像傳感器,以及用于結構光深度識別的紅外發射器(b)。 iFixit的進一步剖析揭示了其他組件細節(c)。 (分別由微軟和iFixit提供)。
Kinect是最著名的嵌入式視覺示例之一,自2011年11月初開始在市場上銷售的前60天銷售800萬臺。它目前還不是一種工業自動化設備,至少是正式的,盡管黑客的努力已經顯著擴大了其在游戲機起源之外的實用性。微軟計劃今年推出適用于Windows?7操作系統的官方SDK,以及PC優化的產品變體。無論如何,微軟的設計權衡和決策都具有指導意義其他人開發基于視覺的用戶界面硬件和軟件。
Chipworks公司和iFixit在產品推出后不久進行的Kinect拆解顯示,單色和全彩色圖像傳感器均來自Aptina。它們相對通用的VGA分辨率CMOS特性意味著Omnivision等備用電源也是可行的。微軟在Kinect設計中包含了一個紅外發射器,以便提供一個已知的 - 照明模式光源,由于其工作頻率,肉眼也是不可見的。然而,這一設計決定阻礙了Kinect在陽光和其他富含紅外線的環境中的使用。
單色圖像傳感器與紅外發射器和PrimeSense源處理SoC協同工作,輸出QVGA分辨率,通過USB 2.0接口將11位深度圖像映射到Xbox 360,白色像素表示附近的對象,顏色漸變延伸到藍色像素(遠)對象(參見圖2)。 Kinect還提供來自拜耳濾鏡圖案彩色圖像傳感器的24位插值彩色VGA分辨率圖像,例如,用于捕獲每個游戲玩家的面部圖像并隨后識別特定用戶。最后,Kinect采用了四元素陣列麥克風配置,可用于精確定位三維空間中特定參與者的聲音,同時濾除環境噪聲和其他游戲玩家的聲音。
圖2:PrimeSense開發的視覺SoC(a)均驅動發射器用紅外線(b)“繪制”Kinect前面的區域并處理Kinect VGA分辨率單色圖像傳感器的輸出,創建從近(白)到遠(藍)距離的物體的每幀深度圖圖像(c) )。 (由PrimeSense提供)。
更簡單的實現有時可以滿足
一些分析公司已經獨立估計Kinect的材料成本僅為50美元以上,而且該設備也相當大(11“x 3”x 3“)和重量(~4 lbs)。請記住這個特殊的外圍設備不僅可以識別用戶的手勢,還可以成功解決全身運動捕捉和面部識別任務,包括識別用戶的微笑,皺眉,眉毛和其他面部元素的運動,并在屏幕上的用戶頭像。 它也適用于各種操作環境,從而解釋了紅外發射器(和相關的散熱風扇),以及單元定向加速度計,電機和三檔組件。
Kinect需要最大限度地減少其消耗的USB 2.0系統總線帶寬,為其他控制臺外圍設備(如網絡適配器和HD DVD驅動器外圍設備)保留足夠的備用帶寬。另一方面,它能夠h arness既有自己的處理資源(前面提到過的PrimeSense IC,還有Marvell開發的和基于ARM?的SoC)和USB2系留游戲機系統組合的三核六線程3.2 GHz PowerPC?CPU和500 MHz GPU。然而,Kinect的光學子系統和紅外傳輸方案相結合,將其保證的近距離可用范圍限制在6英尺(多玩家情況下為8英尺);結合處理限制,這些因素使得支持Kinect的游戲能夠同時識別出幾個玩家。
在開發自己的基于嵌入式視覺的基礎上,記住微軟團隊的這些權衡取舍設計。例如,如果不需要語音識別,您可以省去麥克風陣列,或者如果不太穩健的源位置和噪聲抑制方案足夠,則可以將其簡化為單麥克風或雙麥克風設置。您可能需要手勢配置才能準確響應距離圖像傳感器不到6英尺的用戶。另一方面,您可以在所有可能的使用情況下保證足夠的環境照明,以排除對輔助紅外線或其他照明的要求。
準確的深度識別,適用于復雜的手部運動和物體尺寸,有時需要雙圖像傳感器設置,但您可能已經計劃使用這樣的配置來實現3-D視頻會議或攝影功能。另一方面,如果基于手勢的界面相當簡單,您可能可以使用單圖像傳感器設置。單傳感器配置也足夠(如Kinect所示)用于基于結構光照的深度識別,以及飛行時深度分辨方法。
CPU和軟件
如果與早期的Kinect案例研究相比,您的基于視覺的界面復雜性降低了,那么實現各種算法所需的處理資源量也將減少。可以使用各種處理候選項,您可以單獨使用或組合使用,例如使用CPU-plus-GPU配對。 它們包括:
來自Analog Devices和Texas Instruments等供應商的DSP
GPU來自AMD和NVIDIA等公司
來自CogniVue和Maxim等公司的視覺定制IC
來自CEVA等供應商的視覺優化處理器內核
來自飛思卡爾的SoC半導體和之前提及的幾家半導體公司以及其他公司
手勢識別是一種足夠專業化和要求苛刻的功能,您可以選擇從公司獲得基礎算法和/或中間件代碼的許可其核心重點是為各種處理平臺開發和實施手勢技術。在研究階段,您可能會發現手勢識別對不同的人意味著不同的東西。例如,中間件開發商Omek Interactive將其工作重點放在利用3D圖像傳感器陣列的實現上,而其他公司只專注于識別基于手的手勢,而忽略了更廣泛的身體運動。<另一方面,如果您決定開發自己的手勢界面代碼,最常用的API和參考算法本質上是開源的,具體來說:
用于GPGPU的OpenCL?(圖形處理單元上的通用計算)大規模可并行化代碼段的加速
OpenMP ?(多處理)和Grand Central Dispatch,后者最初由Apple ?開發,用于在CPU核心之間以及CPU和GPU之間劃分代碼
OpenCV(計算機視覺)代碼庫最初由Intel ?開發,現在由Willow Garage維護
OpenNI(自然交互),一個orga PrimeSense作為關鍵創始人,提供一套API和支持自然語音和語音命令識別,手勢和身體運動跟蹤的框架
更專有的替代API大自然來自眾多供應商。可以從General Instruments和MathWorks等供應商處獲得更高級別的框架和軟件開發工具集。如果您有興趣通過圖像增強技術進一步提高手勢算法的有效性,請聯系Apical Limited等公司。
嵌入式視覺聯盟
本文中提及的許多公司(以及許多其他公司)都是嵌入式視覺聯盟的成員,該聯盟于2011年5月底公開發布。嵌入式視覺技術有可能實現廣泛的電子產品比以前更智能,更敏感,因此它們對用戶更有價值。它可以使電子設備公司既可以創建有價值的新產品,也可以為現有產品添加有用的功能。此外,它還可以為硬件,軟件和半導體制造商提供重要的新市場。嵌入式視覺聯盟是一個統一的全球技術開發商和提供商組織,正在幫助以豐富,快速和高效的方式將這種潛力轉化為現實。
-
傳感器
+關注
關注
2565文章
52979瀏覽量
767232 -
處理器
+關注
關注
68文章
19890瀏覽量
235098 -
計算機
+關注
關注
19文章
7662瀏覽量
90755
發布評論請先 登錄
基于工業控制應用的視覺的手勢識別

手勢對工業機器人進行控制
手勢識別在車內交互領域能否煥發新生?
凌感手勢追蹤算法與詮視視覺模組結合,加速手勢識別在VR/AR中的應用
手勢識別產品特性和主要應用領域

評論