11月份的萬物互聯專欄討論了為可隨時隨地在線操作這樣一個時代重新思考相機的必要性。我們也有必要重新考慮這些相機“看”的方式。
如今,計算機視覺可以像大多數人所能做的那樣準確地跟蹤汽車、人臉和生產過程。當需要篩選大量數據時,計算機視覺模型比人做得更好。
但也存在局限性。要認出一個人或一個動作,計算機仍比人需要更多的時間。它們無法跟隨多個攝像機之間的人或物體。它們很容易被騙。它們無法為它們所看到的內容賦予含義。工程師們必須克服這些限制,才能使相機在制造業和智慧城市中更有用。
今天的相機通常可以執行推斷(使用算法來將輸入的圖像與一個預定義的模型進行匹配)。速度為每秒30幀左右,具體取決于這些計算機視覺算法的復雜性。
所有的推斷算法基本上都要在成本、速度、內存和準確性這幾個變量之間進行權衡。可以快速推斷出某個東西是什么的相機可能就要以犧牲準確性為代價,或者可能需要更多內存而導致更高的設備成本。
每秒30幀的速度對于在音樂會人群中找到一張面孔來說是可以的。不過,Xnor.ai公司的運營總監Sophie Lebrecht表示,當涉及到更復雜的計算機視覺任務(如確定制造過程中的錯誤)時,計算機需要提高處理能力,否則就可能需要使生產線減速。Xnor.ai是一家研發軟件來提高計算機視覺能力的公司,其目標是以每秒60幀的速度進行圖像跟蹤。
加快計算機處理圖像的幀速率只是第一步。接下來是構建可以跟蹤網絡中的多個攝像機之間的對象的軟件。例如,在一個監控攝像機上找到一個人,將能讓網絡在這個人走在其他攝像機前面時自動實時地跟蹤他。
為此,我們需要針對復雜模型的快速圖像處理能力,以及在相機網絡上運行并可以挑出圖像的軟件。我們的目標是找到一種可以在單個網絡上執行此操作而無需將數據發送到云中的方法。這將需要一種算法來識別人,并需要另一種算法來在物理空間中跟蹤那個人。它可能還需要疊加在相機上或新的通信協議上的某種軟件。
相機還需要避免“對抗性攻擊”,這是一個全新的研究領域。就像人可能被視錯覺所迷惑一樣,計算機的視覺也可能被各種會使正常的圖像失真的技巧所欺騙,導致程序識別出圖像上并不存在的東西。
也許最困難的任務是創造出能讓計算機將含義賦予它們所看到的內容的軟件。識別出一個人正在爬行是一回事;相機推斷出在地板上爬行的那個人需要幫助或試圖避過探測是另外一回事。
到那時,相機及其軟件將需要決定下一步該做什么。我們還有很長一段路要走,但是Alphabet公司的研究人員已經在試圖教會計算機視覺算法找出含義方面做了令人印象深刻的工作。在將來的某一天,計算機可能會比我們對圖像的內容理解得更好,并且會利用它們所看到的來做對我們有益的事情。
-
物聯網
+關注
關注
2927文章
45919瀏覽量
388394 -
計算機視覺
+關注
關注
9文章
1706瀏覽量
46585
原文標題:物聯網相機需要既快又聰明,且能夠理解圖像含義
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
未來車間大多數人工將被機器代替,立柱機器人建材行業應用

評論