Google人工智能與機器學(xué)習首席科學(xué)家李飛飛在Google I/O開發(fā)者大會表示人工智能將成為“第四次工業(yè)革命的驅(qū)動力”,它將改變?nèi)祟惿睢⒐ぷ骱蜏贤ǖ姆绞健T谌斯ぶ悄艿娜齻€階段“弱人工智能—強人工智能—超人工智能”的發(fā)展中,視覺信息的獲取是必不可少的,機器從對物體的識別到場景的理解都必須先獲取其三維信息以及位置關(guān)系。三維視覺將成為人工智能的“殺手級應(yīng)用”。
在過去十年間,人類在對圖像識別和圖像標注等基礎(chǔ)視覺領(lǐng)域已經(jīng)取得了重大進展,基于這種二維圖像視覺在諸如人臉識別、工業(yè)檢測、安防以及汽車ADAS等方面得到了廣泛的應(yīng)用,成為人工智能的一些重要落地應(yīng)用。隨著人工智能的發(fā)展,二維信息無法滿足對真實場景的充分理解,所以各個大廠都在著力研究三維視覺的技術(shù),如Intel的RealSense、Apple的TrueDepth,以及諸多廠家面向無人駕駛的多線激光雷達等,這些技術(shù)都在幫助機器獲取一個至關(guān)重要信息——深度信息,來實現(xiàn)三維人臉識別、手勢識別、獲知物體間的空間關(guān)系,以及視覺導(dǎo)航、路徑規(guī)劃、主動避障等工作。
三維視覺在強人工智能階段必將是不可獲取的組成部分,是機器智能和企業(yè)變革的重要技術(shù)。接下來我們就三維視覺的技術(shù)方案給做一個系統(tǒng)介紹。
其中三角測距中的非編碼方式的方案常見于工業(yè)檢測領(lǐng)域,這種方案我們暫且不討論。我們在這一期著重討論其它幾種方式的近距離三維視覺方案。
近距離三維感知設(shè)備我們稱之為深度相機,其中雙目相機即是利用雙攝像頭模擬人眼,通過計算空間中同一個物體在兩個相機成像的視差來獲得物體離相機的距離。
而ToF(Time of Flight)即飛行時間法,其測距原理是通過連續(xù)發(fā)射經(jīng)過調(diào)制的特定頻率的光脈沖到被觀測物體上,然后接收從物體反射回去的光脈沖,通過探測光脈沖的飛行(往返)時間來計算被測物體離相機的距離。
三角法測距中的采用編碼方式的方案業(yè)內(nèi)均定義為結(jié)構(gòu)光方式。結(jié)構(gòu)光法不依賴于物體本身的顏色和紋理,是采用主動投影編碼圖案(比如散斑、條紋光等)的方法來實現(xiàn)快速魯棒的匹配特征點,能夠獲得較高的精度,也大大擴展了適用范圍。
蘋果iPhone X的“齊劉海”——TrueDepth系統(tǒng)
iPhone X通過前置點陣投影器(也就是結(jié)構(gòu)光投影儀)將超過30000個肉眼不可見的光點(紅外激光散斑點)投影到人臉,再根據(jù)紅外鏡頭接收到的反射光點,計算得到人臉三維圖。
這種空間編碼方式,是向空間投射了單幅隨機的激光衍射斑點,但是由于這些點并不能覆蓋空間上所有的區(qū)域,勢必在某些位置無法獲取到三維信息,導(dǎo)致其精度是有一定限制的,通常為毫米級精度,這也是為什么iPhone X只是獲取了人臉的大致模型,在其FaceID應(yīng)用中實際上只是應(yīng)用了結(jié)構(gòu)光方案判斷解鎖手機的是一個真實的人,而非平面照片或視頻,作為一種活體判斷防止被攻擊破解的手段。
這類散斑結(jié)構(gòu)光的方案被國內(nèi)奧比中光、華捷艾米等企業(yè)采用。主要應(yīng)用于體感交互、手勢識別、人臉識別活體檢測等領(lǐng)域。
那是否有方案可以實現(xiàn)高精度的三維數(shù)據(jù)呢?答案是肯定的。這就是我們接下來要講的動態(tài)結(jié)構(gòu)光的時間編碼方案,此種方案的深度相機的原理如下:
它同樣由一個攝像機和一個結(jié)構(gòu)光投影儀組成,結(jié)構(gòu)光投影儀向被測物體投射多組明暗相間的光柵圖像(隨時間可調(diào)制),攝像機同時拍攝經(jīng)被測物體表面調(diào)制而變形的多組光柵圖像,通過一定算法計算出被測物體的三維數(shù)據(jù)。
這種動態(tài)結(jié)構(gòu)光方案的三維視覺其實在工業(yè)界早有應(yīng)用,主要應(yīng)用在逆向工程、三維檢測、三維建模等領(lǐng)域,這就是傳統(tǒng)的三維掃描儀,既然將它稱為儀器,也就可想而知其體積通常比較大,價格也很昂貴。
那是否存在一種深度相機方案,其精度高,體積小,價格也不那么高呢?答案也是肯定的。這個就是MEMS微振鏡的方案(MEMS:微機電系統(tǒng))。MEMS微振鏡是一種將可動結(jié)構(gòu)芯片化的執(zhí)行器,工作時芯片內(nèi)部的鏡面可以高速擺動,以實現(xiàn)激光束的高速掃描。
基于MEMS微振鏡的深度相機與傳統(tǒng)的三維掃描儀最大的區(qū)別是結(jié)構(gòu)光投影方式上,三維掃描儀采用DLP、LCOS等進行動態(tài)結(jié)構(gòu)光的投影,而此深度相機是采用MEMS微振鏡與激光來進行掃描投影。
采用MEMS微振鏡的投影方式,不僅克服了體積和成本上的缺點,同時由于這種投影系統(tǒng)是激光掃描式,投影并無光學(xué)放大鏡頭,也就沒有焦距的概念,是一個無需調(diào)焦的系統(tǒng)(free-focus projector),這也就使得基于MEMS微振鏡深度相機的工作范圍要比三維掃描儀要大很多。
基于MEMS微振鏡的深度相機可以實現(xiàn)亞毫米級,甚至更高的深度精度,相比較同樣小體積的散斑靜態(tài)結(jié)構(gòu)光方案的深度相機,精度提升有至少一個數(shù)量級。而相比同樣精度的三維掃描儀,其體積小、重量輕、無需調(diào)焦等優(yōu)勢特點擴展了高精度三維視覺的應(yīng)用場景。
以下將結(jié)構(gòu)光的三維視覺方案做一個綜合對比:
MEMS深度相機所采集的亞毫米精度數(shù)據(jù)可以滿足三維人臉識別需求,實現(xiàn)真正用三維數(shù)據(jù)來作為識別判定依據(jù)。而非像iPhoneX中三維信息只能用于活體判斷,也避免出現(xiàn)如新聞中所報道的母子二人均可解鎖iPhone X的情況。
同時這種高精度深度相機所采用的MEMS微振鏡尺寸通常只有幾個毫米,功耗也只有幾十毫瓦,非常適合集成于如智能手機、平板電腦等便攜式的設(shè)備中,為其增加三維人臉識別、三維掃描建模等功能。目前采用這種技術(shù)方案的國內(nèi)外廠家有Intel的RealSense,知微傳感(Zhisensor)的Argus等。
隨著人工智能對視覺傳感器的需求越來越高,高精度的三維視覺產(chǎn)品也將會越來越普及,在不遠的將來,機器擁有比人類更敏銳的視覺感知的確是完全可能的。
-
iPhone X
+關(guān)注
關(guān)注
0文章
79瀏覽量
6500 -
三維視覺
+關(guān)注
關(guān)注
1文章
18瀏覽量
1832
原文標題:比iPhone X更牛X的三維視覺技術(shù)
文章出處:【微信號:MEMSensor,微信公眾號:MEMS】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
索尼FCB-ER8530:三維建模與視覺感知的跨界融合
維視智造助力高校人工智能和機器視覺課程落地
奧比中光亮相第四屆中國三維視覺大會
三維測量在醫(yī)療領(lǐng)域的應(yīng)用
三維測量軟件的使用技巧
三維掃描與建模的區(qū)別 三維掃描在工業(yè)中的應(yīng)用
嵌入式和人工智能究竟是什么關(guān)系?
AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
risc-v在人工智能圖像處理應(yīng)用前景分析
友思特方案 基于三維點云實現(xiàn)PCB裝配螺絲視覺檢測

評論