Daimler公司研發(fā)組2017年寫的一篇綜述,主要總結(jié)當(dāng)時(shí)深度學(xué)習(xí)如何在多目標(biāo)跟蹤應(yīng)用的工作。
一個(gè)多目標(biāo)跟蹤系統(tǒng)的框架大同小異,如圖所示,數(shù)據(jù)相關(guān)(data association),狀態(tài)預(yù)測(cè)(state prediction),狀態(tài)更新(state update)和跟蹤管理(track management)幾個(gè)部分。
下圖是通用的多目標(biāo)跟蹤系統(tǒng)框架。
而應(yīng)用深度學(xué)習(xí)在目標(biāo)跟蹤中的方法可總結(jié)為四種途徑(如上圖):
1)?特征學(xué)習(xí)(表觀模型部分).?如經(jīng)典的CNN 2)?數(shù)據(jù)相關(guān)部分.?比如Siamese 網(wǎng)絡(luò)加 Hungarian算法/LSTM 3)?端到端學(xué)習(xí)法(比較具有挑戰(zhàn)性).?如RNN/LSTM 4)?狀態(tài)預(yù)測(cè)(運(yùn)動(dòng)/軌跡).?如Behavior-CNN,Social-LSTM,Occupancy Grid Map等等 ?
下面對(duì)每個(gè)途徑介紹一兩個(gè)例子。
feature learning
L. Wang, W. Ouyang, X. Wang, and H. Lu, “Visual Tracking with Fully Convolutional Networks,” in ICCV, 2015?
2. Data Association
L. Leal-Taixe, C. Canton-Ferrer, and K. Schindler, “Learning by Tracking: Siamese CNN for Robust target association,” in CVPRW, 2016?
3. Prediction
A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese, “Social LSTM: Human Trajectory Prediction in Crowded Spaces,” in CVPR, 2016
S. Yi, H. Li, and X. Wang, “Pedestrian Behavior Understanding and Prediction with Deep Neural Networks” in ECCV, 2016
S. Hoermann, M. Bach, and K. Dietmayer, “Dynamic Occupancy Grid Prediction for Urban Autonomous Driving: A Deep Learning Approach with Fully Automatic Labeling?” in IV, 2017?
4. E2E
I. Posner and P. Ondruska, “Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks” in AAAI, 2016
A. Milan, S. H. Rezatofighi, A. Dick, K. Schindler, and I. Reid, “Online Multi-target Tracking using Recurrent Neural Networks” in AAAI, 2017
“ DEEP LEARNING IN VIDEO MULTI-OBJECT TRACKING: A SURVEY “,7,2019
這是最近的一篇MOT綜述文章。重點(diǎn)是介紹2D單目攝像頭數(shù)據(jù)方法。
MOT算法采用的標(biāo)準(zhǔn)方法是通過檢測(cè)進(jìn)行跟蹤:通常從視頻幀中提取出一組檢測(cè)結(jié)果(即,標(biāo)識(shí)圖像中目標(biāo)的邊框),并用于引導(dǎo)跟蹤過程,即將相同ID分配給包含相同目標(biāo)的邊界框。因此,許多MOT算法任務(wù)實(shí)際是分配問題。
現(xiàn)代的檢測(cè)框架如SSD、YOLO和RCNN系列,確保了良好的檢測(cè)質(zhì)量,大多數(shù)MOT方法(除了某些例外)一直致力于改善關(guān)聯(lián)性。實(shí)際上,許多MOT數(shù)據(jù)集提供了一組標(biāo)準(zhǔn)的檢測(cè)方法,算法可以使用這些檢測(cè)方法,以便專門比較在關(guān)聯(lián)算法質(zhì)量上的性能,因?yàn)闄z測(cè)器的性能會(huì)嚴(yán)重影響跟蹤結(jié)果。如圖是MOT算法的展示。
MOT算法也可以分為批處理和在線方法。在嘗試確定特定幀的目標(biāo)個(gè)體時(shí),允許批處理跟蹤算法使用將來的信息(即來自將來的幀)。它們經(jīng)常利用全局信息提高跟蹤質(zhì)量。相反,在線跟蹤算法只能使用當(dāng)前和過去的信息來預(yù)測(cè)當(dāng)前幀。某些情況下是必需的,例如自動(dòng)駕駛和機(jī)器人導(dǎo)航。與批處理方法相比,在線方法往往表現(xiàn)較差,因?yàn)樗鼈儫o(wú)法使用將來的信息來修復(fù)過去的錯(cuò)誤。重要的是,雖然要求實(shí)時(shí)算法以在線方式運(yùn)行,但并非每種在線方法都必須實(shí)時(shí)運(yùn)行;實(shí)際上,除了極少數(shù)例外,很多時(shí)候在線算法仍然太慢而無(wú)法在實(shí)時(shí)環(huán)境中使用,特別是深度學(xué)習(xí)算法通常會(huì)占用大量計(jì)算資源。
盡管方法種類繁多,大多數(shù)MOT算法共享以下部分或全部的步驟(如圖所示):
檢測(cè)階段:目標(biāo)檢測(cè)算法使用邊框分析每個(gè)輸入幀,識(shí)別屬于某種類別的目標(biāo),在MOT稱為“檢測(cè)”;
特征提取/運(yùn)動(dòng)預(yù)測(cè)階段:一種或多種特征提取算法分析檢測(cè)和/或軌跡,提取外觀、運(yùn)動(dòng)和/或交互特征。可選項(xiàng)是,運(yùn)動(dòng)預(yù)測(cè)器預(yù)測(cè)每個(gè)跟蹤目標(biāo)的下一個(gè)位置;
近似(Affinity )階段:特征和運(yùn)動(dòng)預(yù)測(cè)用于計(jì)算成對(duì)的檢測(cè)和/或小軌跡(tracklet)之間相似度/距離的得分;
關(guān)聯(lián)(Association)階段:通過相同ID分配給標(biāo)識(shí)相同目標(biāo)的檢測(cè)階段,相似度/距離度量將屬于同一目標(biāo)的檢測(cè)和小軌跡關(guān)聯(lián)起來。
"Deep Visual Tracking: review and experimental comparison", 2018
國(guó)內(nèi)一篇基于單攝像頭的單目標(biāo)跟蹤的綜述。
根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)特征和網(wǎng)絡(luò)訓(xùn)練將現(xiàn)有的基于深度學(xué)習(xí)的跟蹤器分為三類:
(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型可以顯著提高跟蹤性能。 (2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型用于將被跟蹤目標(biāo)與其周圍背景區(qū)分開來的跟蹤器可以獲得更準(zhǔn)確的結(jié)果,而CNN模型的模板匹配通常會(huì)更快。 (3)有較深特征的跟蹤器的性能要比有低級(jí)手工特征的跟蹤器好得多。 (4)來自不同卷積層的深層特征有不同的性質(zhì),它們的有效組合通常會(huì)導(dǎo)致跟蹤器更健壯。 (5)使用端到端網(wǎng)絡(luò)的深度視覺跟蹤器通常比僅使用特征提取網(wǎng)絡(luò)的跟蹤器性能更好。 (6)視覺跟蹤最合適的網(wǎng)絡(luò)訓(xùn)練方法是對(duì)每個(gè)帶有視頻信息的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并通過后續(xù)觀測(cè)量對(duì)其進(jìn)行在線微調(diào)。
“Deep learning for multiple object tracking: a survey“,8,2019
這也是國(guó)內(nèi)最近的一篇MOT綜述文章。?
文章將基于DL的MOT方法大致分為三類:
使用深層網(wǎng)絡(luò)特征的多目標(biāo)跟蹤增強(qiáng),其中語(yǔ)義特征是相關(guān)任務(wù)設(shè)計(jì)的深層神經(jīng)網(wǎng)絡(luò)所提取,替換先前跟蹤框架中的常規(guī)手工特征。在大多數(shù)情況下,從深度網(wǎng)絡(luò)提取的這些功能可以有效地提高跟蹤性能。
具有深度網(wǎng)絡(luò)嵌入的多目標(biāo)跟蹤,其中跟蹤框架的核心部分是使用深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的。例如,深度網(wǎng)絡(luò)的輸出被設(shè)計(jì)為對(duì)不同軌跡檢測(cè)的多分類得分,而二值深度分類器檢測(cè)是否屬于同一目標(biāo)。
通過端到端深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行多目標(biāo)跟蹤,其中直接設(shè)計(jì)深度網(wǎng)絡(luò)以獲得跟蹤結(jié)果。通常僅通過一個(gè)網(wǎng)絡(luò)很難獲得多目標(biāo)跟蹤結(jié)果,因?yàn)镸OT跟蹤存在一些相互交織的子模塊。一些工作試圖通過一些假設(shè)(例如馬爾可夫性,固定分布等)來實(shí)現(xiàn)此目標(biāo)。
如圖是基于深度學(xué)習(xí)的MOT方法圖:
下表是所列MOT方法的細(xì)節(jié)對(duì)比。
Wojke, N., Bewley, A., Paulus, D.: ‘Simple online and realtime tracking with a deep association metric’. Proc. Int. Conf. on Image Processing, Beijing, China, 2017
下圖是深度SORT(Simple Online and Realtime Tracking)算法的示意圖:從wide residual network (WRN) 中提取用于分類的深層特征用于增強(qiáng)檢測(cè)和軌道之間的匹配(WRN的WRB – 殘差塊)。
Chu, Q., Ouyang, W., Li, H., et al.: ‘Online multi-object tracking using CNN- based single object tracker with spatial-temporal attention mechanism’.?Proc. IEEE Int. Conf. Computer Vision, Venice, Italy, 2017 ?
如圖是STAM(spatial-temporal attention mechanism)-MOT的框架:(a)構(gòu)造深度CNN學(xué)習(xí)空間注意力和特定目標(biāo)的分類器,(b)使用基于采樣的搜索方法來找到最佳候選者。
Milan, A., Rezatofighi, S.H., Dick, A.R., et al.: ‘Online multi-target tracking using recurrent neural networks’. Proc. AAAI, San Francisco, CA, USA, 2017
如圖是RNN(recurrent neural networks)-LSTM跟蹤框架:構(gòu)建一個(gè)基于RNN的網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)、更新狀態(tài)和終止概率。基于LSTM的網(wǎng)絡(luò)用于在檢測(cè)和目標(biāo)之間找到最佳關(guān)聯(lián)。
總之,綜述中作者基于現(xiàn)有方法分析了深度特征遷移、神經(jīng)網(wǎng)絡(luò)嵌入和端到端網(wǎng)絡(luò)訓(xùn)練的機(jī)制。其次,討論深度網(wǎng)絡(luò)在跟蹤框架中的作用,以及訓(xùn)練這些網(wǎng)絡(luò)的問題。再者,根據(jù)常見的數(shù)據(jù)集和評(píng)估重新對(duì)這些多目標(biāo)跟蹤方法進(jìn)行比較,并強(qiáng)調(diào)了各自方法的優(yōu)點(diǎn)和局限性。一方面,遠(yuǎn)沒有足夠的標(biāo)記數(shù)據(jù)集來訓(xùn)練滿意的模型在任何條件下進(jìn)行跟蹤。生成網(wǎng)絡(luò)有可能為深度學(xué)習(xí)模型的泛化鋪平道路。另一方面,為了應(yīng)對(duì)復(fù)雜環(huán)境(例如移動(dòng)平臺(tái))下跟蹤結(jié)果下降的事實(shí),需要集成網(wǎng)絡(luò)模型學(xué)習(xí)這些動(dòng)態(tài)場(chǎng)景的特征。另外,為了進(jìn)一步適應(yīng)變化條件,學(xué)習(xí)跟蹤目標(biāo)高階或在線遷移的特征。
編輯:黃飛
評(píng)論