德國馬克斯普朗克智能系統(tǒng)研究所(Max Planck Institute for Intelligent Systems)的自動駕駛視覺組聯(lián)合蘇黎世聯(lián)邦理工學院(ETH-Zurich)計算機視覺與幾何組發(fā)表了一篇 67 頁的論文,介紹用于自動駕駛的計算機視覺方面的研究,從自動駕駛的歷史開始,談到了數(shù)據(jù)集與基準、攝像頭模型與校準、目標識別、追蹤等問題中的難題與頂尖研究成果。
最近在網(wǎng)上發(fā)現(xiàn)了一個帖子,這個帖子整理了自動駕駛領域的五個免費的資源:
五個免費入門自動駕駛的資源
http://www.kdnuggets.com/2017/06/machine-learning-algorithms-used-self-driving-cars.html
這篇文章會讓你在自主車輛算法領域中從實踐中學習,如果你打算沿著這條路走,它會提供幫助。機器學習應用包括通過外部和內(nèi)部傳感器的數(shù)據(jù)融合對駕駛員狀態(tài)或駕駛情景分類的評估,這里研究了應用于自動駕駛汽車的不同算法。
2. 自主車輛的計算機視覺:問題、數(shù)據(jù)集和最先進技術
https://arxiv.org/pdf/1704.05519.pdf
這是一篇由Joel Janai, Fatma Güney, Aseem Behl, and Andreas Geiger寫的自主車輛的現(xiàn)狀綜述。這篇文章試調(diào)查既包括歷史上最相關的文獻,也包括當前最新幾個主題,包括識別、重建、運動估計、跟蹤、場景理解和端到端學習。對于那些想要在該領域快速入門的來說,這是一篇全面的概述,也是最好的開始。
3. 應用于自動駕駛汽車的深度學習
http://selfdrivingcars.mit.edu/
這是麻省理工學院的課件網(wǎng)站。本課程是通過建立一輛自動駕駛汽車的應用主題來介紹深度學習的。
4. Python玩?zhèn)b盜獵車手5
https://www.youtube.com/watch?v=ks4MPfMq8aQ
這是由Harrison Kinsley的視頻系列(又名sentdex),描述如下:
此項目的目的是使用Python來玩?zhèn)b盜獵車手5。在俠盜獵車手5中有許多事情要做,但在這種情況下,我們的第一個目標是創(chuàng)建一輛自動駕駛汽車以及滑板車。該系列到目前為止已經(jīng)超過17個視頻。
5. 自動駕駛汽車工程師Nanodegree
https://cn.udacity.com/self-driving-car-engineer--nd013/
忽略Udacity的營銷,這可能是在自主車輛領域人們可以獲得最全面和集中的正式培訓/教育的地方。為幫助填補這一空白,你可以在這里找到一些學生的課程筆記和代碼,如果你想要得到這樣一個樣本你需要學習這一系列的課程。
自主車輛的計算機視覺:問題、數(shù)據(jù)集和最先進技術
本文主要分享一下第二個資源《自主車輛的計算機視覺:問題、數(shù)據(jù)集和最先進技術》。它是由德國馬克斯普朗克智能系統(tǒng)研究所(Max Planck Institute for Intelligent Systems)的自動駕駛視覺組聯(lián)合蘇黎世聯(lián)邦理工學院(ETH-Zurich)計算機視覺與幾何組發(fā)表的一篇 67 頁的論文,介紹用于自動駕駛的計算機視覺方面的研究,從自動駕駛的歷史開始,談到了數(shù)據(jù)集與基準、攝像頭模型與校準、目標識別、追蹤等問題中的難題與頂尖研究成果。此篇文章對文章結構與引導閱讀的內(nèi)容進行了介紹,此外,為了方便閱讀,作者們還給出了一個交互式在線工具,用圖的方式可視化了相關研究的分類,提供了額外的信息與論文鏈接,項目地址如下:
http://www.cvlibs.net/projects/autonomous_vision_survey/
文章基本結構
前言
自動駕駛歷史
數(shù)據(jù)集&基準
攝像頭模型&校準
表征
目標識別
語義分隔
再建構
動作&姿勢估測
追蹤
場景理解
傳感器運動控制的端到端學習
結論
摘要
近年來計算機視覺、機器學習和自動駕駛等人工智能相關領域發(fā)生了驚人的進展。然而,和每一個快速發(fā)展的領域一樣,人工智能領域也出現(xiàn)了業(yè)內(nèi)人員難以跟上行業(yè)節(jié)奏或者業(yè)外人員難入行的問題。雖然已編寫過幾篇專題調(diào)查論文,但是到目前為止,還沒有關于自動駕駛計算機視覺(computer vision for autonomous vehicle)的難題、數(shù)據(jù)集和方法的綜合性調(diào)查。本文通過提供有關自動駕駛計算機視覺這一主題的最新調(diào)查以填補這一空白。我們的調(diào)查既包括最為相關的歷史資料,也包括識別、重建、運動估測、追蹤、場景理解以及端到端學習等當前最先進的專業(yè)主題。為了完成這一目標,我們首先通過分類學對每個方法進行分類,接著在 KITTI、ISPRS、MOT 和 Cityscapes 等若干個挑戰(zhàn)性的基準數(shù)據(jù)集上分析每個方法的最佳性能。此外,我們還討論了一些開放問題和當前的研究挑戰(zhàn)。考慮到訪問的輕松性和缺失的引用,我們還提供了一個具有主題和方法導航功能的互動平臺,提供額外信息和每篇論文的項目鏈接。
導語
從 20 世紀 80 年代首次成功演示以來(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自動駕駛汽車領域已經(jīng)取得了巨大進展。盡管有了這些進展,但在任意復雜環(huán)境中實現(xiàn)完全自動駕駛導航仍被認為還需要數(shù)十年的發(fā)展。原因有兩個:首先,在復雜的動態(tài)環(huán)境中運行的自動駕駛系統(tǒng)需要人工智能歸納不可預測的情境,從而進行實時推論。第二,信息性決策需要準確的感知,目前大部分已有的計算機視覺系統(tǒng)有一定的錯誤率,這是自動駕駛導航所無法接受的。
在此論文中,我們聚焦于第二個問題,也就是自動駕駛視覺(autonomous vision),并調(diào)查了目前自動駕駛汽車中感知系統(tǒng)的表現(xiàn)。面向此目標,我們首先給出了問題分類,歸類了已有的數(shù)據(jù)集,以及在這些類別中可使用的技術(論文成果),描述了每種方法的優(yōu)缺點。第二,我們在數(shù)個流行數(shù)據(jù)集上分析了一些頂尖成果的表現(xiàn)。特別是我們給出了 KITTI 基準的全新深度質(zhì)量分析,基于提交到平谷服務器上的方法展現(xiàn)了最容易與最困難的例子。基于這些分析,我們討論了開放的研究問題和挑戰(zhàn)。為了更輕松的閱讀,我們還給出了一個交互式在線工具,使用圖像可視化了我們的分類,并用簡單可用的方式提供了額外的信息與鏈接。通過提供詳盡的綜述,我們希望該成果能夠成為自動駕駛視覺領域研究員進行研究的有用工具,也能降低新人進入該領域的門檻。
作者們給出的自動駕駛視覺領域中問題的分類。在此交互式工具中,點擊這些主題就能搜索相關論文。
目前也有其他相關的研究。Winner et al. (2015) 詳細解釋了主動安全性與駕駛輔助系統(tǒng),考慮到了它們的結構與功能。他們的研究注重覆蓋到輔助駕駛系統(tǒng)的所有方面,但關于機器視覺的章節(jié)只覆蓋到了自動駕駛視覺問題中最基礎的概念。Klette (2015) 給出了基于視覺的駕駛輔助系統(tǒng)的概述。他們描述了高層次的感知問題的大部分方面,但并不像我們一樣提供了在各種任務上頂級成果的深度評測。
Zhu et al. (2017) 提供了智能汽車環(huán)境感知的概述,聚焦于車道檢測、交通信號/燈識別以及汽車追蹤問題,該論文可與我們的研究互補。但相較之下,我們的目標是通過提供廣泛的綜述和對比(包括所有領域的成果),在機器人、智能汽車、攝影測繪學和計算機視覺社區(qū)之間架起一座橋梁。
1. 自動駕駛歷史
1.1 自動駕駛項目
1.2 自動駕駛競賽
2. 數(shù)據(jù)集和基準
數(shù)據(jù)集通過提供專門的真值(ground truth)問題實例,從而在許多研究領域之中發(fā)揮了關鍵作用。通過提供有關其能力與局限的核心信息,數(shù)據(jù)集還可以對方法進行量化評估。
2.1 真實數(shù)據(jù)集
立體與 3D 重建類數(shù)據(jù)集
光流類數(shù)據(jù)集
對象識別與分割類數(shù)據(jù)集
追蹤類數(shù)據(jù)集
航空圖像數(shù)據(jù)集
自動駕駛數(shù)據(jù)集
長期自控(Long-Term Autonomy)類數(shù)據(jù)集
2.2 合成類數(shù)據(jù)集
MPI Sintel
飛行椅和飛行物
游戲引擎
3. 攝像頭模型與校準
3.1 校準
3.2 全向攝像頭
3.3 事件攝像頭
圖 4(a)一個標準的 CMOS 攝像頭以固定幀頻輸出圖像,運動視覺傳感器(DVS)及時輸入波峰事件(spike event)(當他們變紅時)。每個事件對應一個局部、像素級別的亮度變化。(b)DVS 盯著一個旋轉(zhuǎn)點上的輸出視覺化。用顏色的點用于標記個體事件。不屬于螺旋的部分是由傳感器噪音引起的。
4. 表征
圖 5: Pfeiffer & Franke (2011) 的多層 Stixel 世界表征。這一場景被切割為叫做 Stixels 的平面部分。與 Stixel World of Badino et al. (2009) 相反,它可以將目標定位在一單個圖像列中的多個深度位置。顏色代表的是與障礙物的距離,紅色代表靠近,綠色代表還離得比較遠。
3D 基元(primitives)
5. 目標識別
傳感器
標準流程
圖 6: Deformable Part Model 進行樣本偵測,模型是 Felzenszwalb et al. (2008) 提出的。DPM 包括一個和多個高分辨率模型,還有一個用來限制每部分位置的 spatial constellation 模型。
分類
5.1 2D 目標檢測
圖 7:Cai et al. (2016) 提出的提議子網(wǎng)絡(proposal sub-network),在多輸出層中進行識別,匹配不同尺度的目標。可以綜合特定尺度偵測器,生成一個強大的多尺度目標偵測器。
圖 8:Chen et al. (2016b) 提出的網(wǎng)絡綜合了來自鳥類視野的分區(qū)(region-wise)特征,LiDAR 點云前視圖以及 RGB 作為 deep fusion network 的輸入。
5.2 從 2D 圖像構建 3D 目標偵測
5.3 從 3D 點云構建 3D 目標偵測
5.4 行人檢測
5.5 行人姿勢估測
5.6 討論
圖 9:KITTI 汽車檢測分析。每個部分分別展示了包含大量真正例(TP) 檢測、假正例(FP)檢測和假負例(FN) 檢測的圖像。如果所有的檢測器的 TP、FP 或 FN 一致,目標被標記為紅色。如果只有一部分檢測器一致,目標標記為黃色。通過 KITTI 評測服務器上公開的 15 種頂級方法,我們已經(jīng)建立了排名。
圖 10:KITTI 行人檢測分析。每個部分分別展示了包含大量真正例(TP) 檢測、假正例(FP)檢測和假負例(FN) 檢測的圖像。如果所有的檢測器的 TP、FP 或 FN 一致,目標被標記為紅色。如果只有一部分檢測器一致,目標標記為黃色。通過 KITTI 評測服務器上公開的 15 種頂級方法,我們已經(jīng)建立了排名。
圖 11:KITTI 自行車檢測。每個部分分別展示了包含大量真正例(TP) 檢測、假正例(FP)檢測和假負例(FN) 檢測的圖像。如果所有的檢測器的 TP、FP 或 FN 一致,目標被標記為紅色。如果只有一部分檢測器一致,目標標記為黃色。通過 KITTI 評測服務器上公開的 15 種頂級方法,我們已經(jīng)建立了排名。
圖 12:Cordts 等人做的 Cityscapes 數(shù)據(jù)集場景語義分割,2016 年記錄于蘇黎世
6. 語義分割
方程(formulation)
結構化 CNN
圖 13: Zhao et al. (2016) 提出的方法的概覽。金字塔解析模塊(c)被用于一個 CNN 的特征圖(b)上,并被輸入一個卷積層用于像素水平的估測(d)。
條件隨機場(conditional random field)
討論
基于建議的樣例分割(Proposal-based Instance Segmentation)
無需建議的樣例分割
6.2 . Label Propagation
6.3 多框架語義分割(Semantic Segmentation with Multiple Frames)
6.4 3D 數(shù)據(jù)的語義分割
在線方法
3D CNN
6.5 街景的語義分割
圖 16:Mathias et al. (2016) 提出用于外表面解析的三層解決方案。他們首先分割外表面,并將概率分布分配給語義類作為提取視覺特征。下一層他們使用特定目標的檢測器,比如門或窗的檢測器從底層改進分類器的輸出。最后,他們結合弱架構先驗,并使用基于采樣的方法搜索最優(yōu)表面標記。
6.6. Semantic Segmentation of Aerial Image
圖 17:ISPRS Vaihingen 采用由 Marmanis et al. (2016b) 提出的 FCN 集合進行場景的語義分割。源自 Marmanis et al. (2016b)。
6.6.1 ISPRS 分割挑戰(zhàn)賽
6.7 道路分割
6.7.1 可用空間估計
圖 18:該圖片源自 Pinggera et al. (2016),其展示了在失物招領(Lost and Found)數(shù)據(jù)集上提出方法的障礙物檢測。
7. 再建構
7.1 立體方法
圖 19:使用目標知識解決立體匹配模糊問題。立體方法通常在無紋理或半透明表面(頂部,Zbontar & LeCun (2016))無法反射。而使用目標知識,通過加強對模糊表面(中間)不一致性的認同,可以在保持數(shù)量上和質(zhì)量上優(yōu)良結果的同時,恢復場景目標的 3D 幾何形(底部)。源自 Guney & Geiger (2015)。
圖 20:立體匹配的深度學習。訓練 Siamese 網(wǎng)絡以提取所有像素可能差異的邊緣分布。源自 Luo et al. (2016)。
7.2 多視角 3D 重構
圖 21:KITTI 2015 立體分析。該圖展示了在 KITTI 2015 立體基準上發(fā)布的 15 個最佳立體方法的累積誤差。根據(jù) Menze & Geiger (2015) 定義的 3px/5% 標準,紅色對應著大多數(shù)方法會導致壞像素的區(qū)域,黃色對應著某些方法失效的區(qū)域,透明對應著所有方法都正確估計。
7.3 再建構與識別
圖 22:Haene et al. (2013) 連結 3D 場景重建和分類。上面一行顯示輸入圖像及其 2D 語義分割與深度圖的示例。下面顯示了連接優(yōu)化和分類所得出的幾何形。源自 Haene et al. (2013)。
8. 運動與姿勢估測
8.1 2D 運動估測-光學流
8.2 3D 運動估測-場景流
圖 27: 場景流。基于圖像場景流的最小設置由兩個連續(xù)的立體圖像對給出。源自 Menze & Geiger (2015)。
8.3. Ego-Motion 估計
圖 30:Scaramuzza & Fraundorfer (2011) 的視覺測距問題圖例。Tk,k?1 轉(zhuǎn)換在兩個相鄰機位(或相機系統(tǒng)位置)由使用視覺特征而獲得。所有轉(zhuǎn)換的累積服從相對于初始坐標系 k = 0 的絕對姿態(tài) Ck。源自 Scaramuzza & Fraundorfer (2011).
圖 31:Engel et al. (2015) 提出的立體 LSD-SLAM 方法能計算精確相機運動和實時半稠密(semi-dense)概率深度圖。深度可視化使用藍色代表遠處場景點,紅色代表近處目標。源自 Engel et al. (2015)。
8.4. 同步定位與構圖 (SLAM)
8.5. 定位
9. 追蹤
追蹤的目標是給定傳感器測量數(shù)據(jù)的情況下實時評估一個或多個目標的狀態(tài)。典型來說,目標的狀態(tài)由它在一定時間的位置、速度和加速度來表達。追蹤其他車輛對自動駕駛任務而言非常重要。舉個例子,汽車剎車距離隨速度變化會有次方級的變化。為了防止相撞,系統(tǒng)需要足夠提前做出反應。其他車輛的軌跡足以預測停車的位置和可能相撞的情況。
在自行車和行人的案例中,比較難以預測未來的行為,因為他們可能會突然改變方向。然而,結合其他車輛的分類進行追蹤,能夠調(diào)整汽車在這種情況下的速度。此外,追蹤其他汽車可被用來進行自動距離控制,提前預估其他車輛可能做的變動。
9.1 立體追蹤
9.2 行人追蹤
9.3 頂級成果
9.4 討論
10. 場景理解
自動駕駛的基本需求之一是充分理解其周遭環(huán)境,比如復雜的交通場景。戶外場景理解的復雜任務包括若干個子任務,比如深度估計、場景分類、目標探測與追蹤、事件分類以及更多,其中每一個子任務描述場景的一個特定方面。聯(lián)合建模這些特定方面以利用場景不同元素之間的關系并獲得一個整體理解,這樣做是有益的。大多數(shù)場景理解模型的目標是獲得一個豐富但緊湊的場景表征,這個場景包含所有的元素,比如布局元素、交通參與者以及彼此之間的關系。相比于 2D 圖像域中的推理,3D 推理在解決幾何場景理解的問題上起著重要作用,并以 3D 目標模型、布局元素、閉塞關系等形式促使場景產(chǎn)生了更多的信息表征。場景理解的一個特殊挑戰(zhàn)是城市市區(qū)與郊區(qū)交通情景的闡釋。相較于高速公路和農(nóng)村公路,市區(qū)場景包含了很多獨立移動的交通參與者,道路與十字路口幾何布局中的更多變化性,以及由于模糊的視覺特征和光照變化所帶來的難度升級。
從單一圖像到視頻
結合目標探測與跟蹤
圖 41:Wojek et al. (2013) 概述了被結合的目標探測與帶有明確閉塞推理的跟蹤系統(tǒng)。改編自 Wojek et al. (2013)。
其他表征
11. 傳感器運動控制的端到端學習
當前最先進的自動駕駛方法包含大量的模型,例如(交通信號、燈、汽車、行人的)探測、(車道、門面的)分割、運動估計、交通參與者的跟蹤,重建。然后,這些組件的結果按照控制系統(tǒng)的規(guī)則組合起來。但是,為了解決操控汽車方向和速度的問題,這需要穩(wěn)健地解決場景理解中的諸多開放性難題。最近的文獻提出了作為替代性方案的若干個端到端自動駕駛方法。端到端駕駛使用的是從一個感覺輸入(比如,正面攝像頭圖像)直接映射到駕駛操作(比如,轉(zhuǎn)向角)的獨立系統(tǒng)。
結論
本文中,我們就自動駕駛計算機視覺的難題、數(shù)據(jù)集和方法提供了一個綜合性調(diào)查。為了完成這一目標,我們的調(diào)查同時涵蓋了最為相關的歷史資料,以及識別、重建、運動估測、追蹤、場景理解、端到端學習等當前最先進的專門主題。通過使用 KITTI 基準的全新深入質(zhì)量分析并考慮其他數(shù)據(jù)集,我們還討論了開放問題和當前這些主題下的研究挑戰(zhàn)。我們的交互式在線工具平臺運用圖形可視化了分類方法,從而可使你輕松瀏覽被調(diào)查的文獻。將來,我們計劃在這一交互式平臺上不斷更新相關文獻,為這一領域提供一個實時的概觀。我們希望該項調(diào)查和該工具平臺可進一步激發(fā)新研究,并且通過這一詳盡的概述,使得初學者更容易進入該領域。
-
傳感器
+關注
關注
2562文章
52524瀏覽量
763522 -
計算機視覺
+關注
關注
9文章
1706瀏覽量
46561 -
自動駕駛
+關注
關注
788文章
14191瀏覽量
169463
原文標題:自動駕駛計算機視覺研究綜述:難題、數(shù)據(jù)集與前沿成果
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論