女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種新的全景視覺(jué)里程計(jì)框架PVO

3D視覺(jué)工坊 ? 來(lái)源:自動(dòng)駕駛之心 ? 2023-05-09 16:51 ? 次閱讀

論文提出了PVO,這是一種新的全景視覺(jué)里程計(jì)框架,用于實(shí)現(xiàn)場(chǎng)景運(yùn)動(dòng)、幾何和全景分割信息的更全面建模。提出的PVO在統(tǒng)一的視圖中對(duì)視覺(jué)里程計(jì)(VO)和視頻全景分割(VPS)進(jìn)行建模,這使得這兩項(xiàng)任務(wù)互惠互利。具體來(lái)說(shuō),在圖像全景分割的指導(dǎo)下,在VO模塊中引入了全景更新模塊。

該全景增強(qiáng)VO模塊可以通過(guò)全景感知?jiǎng)討B(tài)mask來(lái)減輕動(dòng)態(tài)目標(biāo)在相機(jī)姿態(tài)估計(jì)中的影響。另一方面,VO增強(qiáng)型VPS模塊還利用從VO模塊獲得的相機(jī)姿態(tài)、深度和光流等幾何信息,將當(dāng)前幀的全景分割結(jié)果融合到相鄰幀,從而提高了分割精度,這兩個(gè)模塊通過(guò)反復(fù)迭代優(yōu)化相互促進(jìn)。大量實(shí)驗(yàn)表明,PVO在視覺(jué)里程計(jì)和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法。

eee0d53e-e63c-11ed-ab56-dac502259ad0.png

領(lǐng)域背景

了解場(chǎng)景的運(yùn)動(dòng)、幾何和全景分割在計(jì)算機(jī)視覺(jué)機(jī)器人技術(shù)中發(fā)揮著至關(guān)重要的作用,其應(yīng)用范圍從自動(dòng)駕駛到增強(qiáng)現(xiàn)實(shí),本文朝著解決這個(gè)問(wèn)題邁出了一步,以實(shí)現(xiàn)單目視頻場(chǎng)景的更全面建模!已經(jīng)提出了兩項(xiàng)任務(wù)來(lái)解決這個(gè)問(wèn)題,即視覺(jué)里程計(jì)(VO)和視頻全景分割(VPS)。特別地,VO[9,11,38]將單目視頻作為輸入,并在靜態(tài)場(chǎng)景假設(shè)下估計(jì)相機(jī)姿態(tài)。為了處理場(chǎng)景中的動(dòng)態(tài)對(duì)象,一些動(dòng)態(tài)SLAM系統(tǒng)使用實(shí)例分割網(wǎng)絡(luò)進(jìn)行分割,并明確過(guò)濾出某些類(lèi)別的目標(biāo),這些目標(biāo)可能是動(dòng)態(tài)的,例如行人或車(chē)輛。

然而,這種方法忽略了這樣一個(gè)事實(shí),即潛在的動(dòng)態(tài)目標(biāo)實(shí)際上可能在場(chǎng)景中是靜止的,例如停放的車(chē)輛。相比之下,VPS專注于在給定一些初始全景分割結(jié)果的情況下,跨視頻幀跟蹤場(chǎng)景中的單個(gè)實(shí)例。當(dāng)前的VPS方法沒(méi)有明確區(qū)分目標(biāo)實(shí)例是否在移動(dòng),盡管現(xiàn)有的方法廣泛地獨(dú)立地解決了這兩個(gè)任務(wù),但值得注意的是,場(chǎng)景中的動(dòng)態(tài)目標(biāo)會(huì)使這兩項(xiàng)任務(wù)都具有挑戰(zhàn)性。認(rèn)識(shí)到兩個(gè)任務(wù)之間的這種相關(guān)性,一些方法試圖同時(shí)處理這兩個(gè)任務(wù),并以多任務(wù)的方式訓(xùn)練運(yùn)動(dòng)語(yǔ)義網(wǎng)絡(luò),如圖2所示。然而,這些方法中使用的損失函數(shù)可能相互矛盾,從而導(dǎo)致性能下降。

eeef5b7c-e63c-11ed-ab56-dac502259ad0.png

本文提出了一種新的全景視覺(jué)里程計(jì)(PVO)框架,該框架使用統(tǒng)一的視圖將這兩項(xiàng)任務(wù)緊密耦合,以對(duì)場(chǎng)景進(jìn)行全面建模。VPS可以利用全景分割信息調(diào)整VO的權(quán)重(每個(gè)實(shí)例的像素的權(quán)重應(yīng)該相互關(guān)聯(lián)),VO可以將視頻全景分割的跟蹤和融合從2D轉(zhuǎn)換為3D。受開(kāi)創(chuàng)性的期望最大化算法的啟發(fā),遞歸迭代優(yōu)化策略可以使這兩項(xiàng)任務(wù)互惠互利。

PVO由三個(gè)模塊組成,一個(gè)圖像全景分割模塊、一個(gè)全景增強(qiáng)型VO模塊和一個(gè)VO增強(qiáng)型VPS模塊。全景分割模塊獲取單個(gè)圖像并輸出圖像全景分割結(jié)果,然后被饋送到全景增強(qiáng)VO模塊中作為初始化。注意,盡管本文選擇PanopticFPN,但任何分割模型都可以用于全景分割模塊。在全景增強(qiáng)VO模塊,提出了一個(gè)全景更新模塊來(lái)過(guò)濾動(dòng)態(tài)目標(biāo)的干擾,從而提高了動(dòng)態(tài)場(chǎng)景中姿態(tài)估計(jì)的準(zhǔn)確性。在VO增強(qiáng)的VPS模塊中,引入了一種在線融合機(jī)制,根據(jù)估計(jì)的姿態(tài)、深度和光流,將當(dāng)前幀的多分辨率特征與相鄰幀對(duì)齊,這種在線融合機(jī)制可以有效地解決多目標(biāo)遮擋的問(wèn)題。實(shí)驗(yàn)表明,遞歸迭代優(yōu)化策略提高了VO和VPS的性能。本文的主要貢獻(xiàn)概括為四個(gè)方面:

1.本文提出了一種新的全景視覺(jué)里程計(jì)(PVO)框架,該框架可以將VO和VPS任務(wù)統(tǒng)一起來(lái),對(duì)場(chǎng)景進(jìn)行全面建模;

2.引入全景更新模塊,并將其納入全景增強(qiáng)VO模塊,以改進(jìn)姿態(tài)估計(jì);

3.在VOEnhanced VPS模塊中提出了一種在線融合機(jī)制,有助于改進(jìn)視頻全景分割;

4.大量實(shí)驗(yàn)表明,提出的具有遞歸迭代優(yōu)化的PVO在視覺(jué)里程計(jì)和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法;

1)視頻全景分割

視頻全景分割旨在生成一致的全景分割,并跟蹤視頻幀中所有像素的實(shí)例。作為一項(xiàng)先驅(qū)工作,VPSNet定義了這項(xiàng)新任務(wù),并提出了一種基于實(shí)例級(jí)跟蹤的方法。SiamTrack通過(guò)提出pixel-tube匹配損失和對(duì)比度損失來(lái)擴(kuò)展VPSNet,以提高實(shí)例嵌入的判別能力。VIPDeplab通過(guò)引入額外的深度信息,提供了一個(gè)深度感知VPS網(wǎng)絡(luò)。而STEP提出對(duì)視頻全景分割的每個(gè)像素進(jìn)行分割和跟蹤,HybridTracker提出從兩個(gè)角度跟蹤實(shí)例:特征空間和空間位置。與現(xiàn)有方法不同,本文引入了一種VO增強(qiáng)的VPS模塊,該模塊利用VO估計(jì)的相機(jī)姿態(tài)、深度和光流來(lái)跟蹤和融合從當(dāng)前幀到相鄰幀的信息,并可以處理遮擋。

2)SLAM和視覺(jué)里程計(jì)

SLAM同時(shí)進(jìn)行定位和地圖構(gòu)建,視覺(jué)里程計(jì)作為SLAM的前端,專注于姿態(tài)估計(jì)。現(xiàn)代SLAM系統(tǒng)大致分為兩類(lèi),基于幾何的方法和基于學(xué)習(xí)的方法。由于基于監(jiān)督學(xué)習(xí)的方法具有良好的性能,基于無(wú)監(jiān)督學(xué)習(xí)的VO方法受到了廣泛的關(guān)注,但它們的性能不如有監(jiān)督的方法。一些無(wú)監(jiān)督方法利用多任務(wù)學(xué)習(xí)和深度和光流等輔助任務(wù)來(lái)提高性能。

最近,TartanVO提出建立一個(gè)可推廣基于學(xué)習(xí)的VO,并在具有挑戰(zhàn)性的SLAM數(shù)據(jù)集TartanAir上測(cè)試該系統(tǒng)。DROID-SLAM提出使用bundle adjustment層迭代更新相機(jī)姿態(tài)和像素深度,并展示了卓越的性能。DeFlowSLAM進(jìn)一步提出了dual-flow表示和自監(jiān)督方法,以提高SLAM系統(tǒng)在動(dòng)態(tài)場(chǎng)景中的性能。為了應(yīng)對(duì)動(dòng)態(tài)場(chǎng)景的挑戰(zhàn),動(dòng)態(tài)SLAM系統(tǒng)通常利用語(yǔ)義信息作為約束但它們主要作用于stereo、RGBD或LiDAR序列。相反,本文引入了全景更新模塊,并在DROID-SLAM上構(gòu)建了全景增強(qiáng)型VO,可以用于單目視頻。這樣的組合可以更好地理解場(chǎng)景幾何和語(yǔ)義,從而對(duì)場(chǎng)景中的動(dòng)態(tài)對(duì)象更加魯棒。與其它多任務(wù)端到端模型不同,本文的PVO具有循環(huán)迭代優(yōu)化策略,可以防止任務(wù)相互干擾。

本文提出的方法

給定一個(gè)單目視頻,PVO的目標(biāo)是同時(shí)定位和全景3D映射。圖3描述了PVO模型的框架,它由三個(gè)主要模塊組成:圖像全景分割模塊、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。VO模塊旨在估計(jì)攝像機(jī)的姿態(tài)、深度和光流,而VPS模塊輸出相應(yīng)的視頻全景分割,最后兩個(gè)模塊以反復(fù)互動(dòng)的方式相互促進(jìn)!

eefd685c-e63c-11ed-ab56-dac502259ad0.png

1)圖像全景分割

圖像全景分割以單個(gè)圖像為輸入,輸出圖像的全景分割結(jié)果,將語(yǔ)義分割和實(shí)例分割相結(jié)合,對(duì)圖像的實(shí)例進(jìn)行綜合建模。輸出結(jié)果用于初始化視頻全景分割,然后輸入全景增強(qiáng)VO模塊。在本文的實(shí)驗(yàn)中,如果沒(méi)有特別指出,使用廣泛使用的圖像全景分割網(wǎng)絡(luò)PanopticFPN。PanopticFPN建立在具有權(quán)重θ_e的ResNetf_{θ_e}的主干上,并提取圖像的多尺度特征I_t:

ef099bea-e63c-11ed-ab56-dac502259ad0.png

它使用具有權(quán)重θ_d的解碼器g_{θ_d}輸出全景分割結(jié)果,該解碼器由語(yǔ)義分割和實(shí)例分割組成,每個(gè)像素p的全景分割結(jié)果為:

ef13f4f0-e63c-11ed-ab56-dac502259ad0.png

被饋送到解碼器中的多尺度特征隨著時(shí)間的推移而更新。一開(kāi)始,編碼器生成的多尺度特征被直接輸入解碼器(圖3藍(lán)色部分)。在隨后的時(shí)間步長(zhǎng)中,這些多尺度特征在被饋送到解碼器之前用在線特征融合模塊進(jìn)行更新。

2)全景增強(qiáng) VO 模塊

在視覺(jué)里程計(jì)中,動(dòng)態(tài)場(chǎng)景無(wú)處不在,過(guò)濾掉動(dòng)態(tài)目標(biāo)的干擾至關(guān)重要。DROID-SLAM的前端以單目視頻{{I_t}}^N_{t=0}為輸入,并優(yōu)化相機(jī)姿態(tài){G_t}^N_{t=0}∈SE(3)和反深度d_t∈R^{H×W}+,通過(guò)迭代優(yōu)化光流delta r{ij}∈R^{HW2}。它不考慮大多數(shù)背景是靜態(tài)的,前景目標(biāo)可能是動(dòng)態(tài)的,并且每個(gè)目標(biāo)的像素權(quán)重應(yīng)該是相關(guān)的。全景增強(qiáng)VO模塊(見(jiàn)圖4)是通過(guò)結(jié)合全景分割的信息,幫助獲得更好的置信度估計(jì)(見(jiàn)圖7),因此,全景增強(qiáng)VO可以獲得更精確的相機(jī)姿勢(shì)。接下來(lái),將簡(jiǎn)要回顧DROID-SLAM的類(lèi)似部分(特征提取和相關(guān)性),并重點(diǎn)介紹全景更新模塊的復(fù)雜設(shè)計(jì)。

ef1c107c-e63c-11ed-ab56-dac502259ad0.png

ef22e38e-e63c-11ed-ab56-dac502259ad0.png

特征提取:與DROID-SLAM類(lèi)似,全景增強(qiáng)VO模塊借用了RAFT的關(guān)鍵組件來(lái)提取特征。本文使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)(一個(gè)特征編碼器和一個(gè)上下文編碼器) 提取每個(gè)圖像的多尺度特征,其中利用特征編碼器的特征構(gòu)建成對(duì)圖像的4D相關(guān)volumes,并將上下文編碼器的特征注入全景更新模塊。特征編碼器的結(jié)構(gòu)類(lèi)似于全景分割網(wǎng)絡(luò)的主干,并且它們可以使用共享編碼器。

相關(guān)金字塔和查找表:與DROIDSLAM類(lèi)似,本文采用幀圖(V,E)來(lái)指示幀之間的共同可見(jiàn)性。例如,邊(i,j)∈E表示保持重疊區(qū)域的兩個(gè)圖像I_i和I_j,并且可以通過(guò)這兩個(gè)圖像的特征向量之間的點(diǎn)積來(lái)構(gòu)建4D相關(guān)volumes:

ef2e099e-e63c-11ed-ab56-dac502259ad0.png

遵循平均池化層以獲得金字塔相關(guān)性,本文使用DROID-SLAM中定義的相同查找運(yùn)算符來(lái)使用雙線性插值對(duì)金字塔相關(guān)volumes值進(jìn)行索引,這些相關(guān)特征被串聯(lián),從而產(chǎn)生最終的特征向量。Panoptic增強(qiáng)型VO模塊繼承了DROID-SLAM的前端VO模塊,利用全景分割信息來(lái)調(diào)整VO的權(quán)重。將通過(guò)將初始光流饋送到流編碼器而獲得的flow信息和從兩幀建立的4D相關(guān)volumes以及上下文編碼器獲取的特征作為中間變量饋送到GRU,然后三個(gè)卷積層輸出動(dòng)態(tài)掩碼M_{d_{ij}},相關(guān)置信度map w_{ij}和稠密光流delta r_{ij}。給定初始化的全景分割,可以將動(dòng)態(tài)掩碼調(diào)整為全景感知?jiǎng)討B(tài)掩碼,為了便于理解,保持符號(hào)不變。置信度和全景感知?jiǎng)討B(tài)掩碼通過(guò)全景感知濾波器模塊以獲得全景感知置信度:

ef34f61e-e63c-11ed-ab56-dac502259ad0.png

深度和動(dòng)態(tài)的殘差掩碼被添加到當(dāng)前深度和動(dòng)態(tài)掩碼,分別為:

ef407a02-e63c-11ed-ab56-dac502259ad0.png

ef672a12-e63c-11ed-ab56-dac502259ad0.png

Correspondence:首先在每次迭代中使用當(dāng)前的姿態(tài)和深度估計(jì)來(lái)搜索對(duì)應(yīng)關(guān)系。參考DROID-SLAM,對(duì)于幀i中的每個(gè)像素坐標(biāo)pi,幀圖中每個(gè)邊(i,j)∈E的稠密對(duì)應(yīng)域pij可以計(jì)算如下:

ef706e06-e63c-11ed-ab56-dac502259ad0.png

DBA層:使用DROID-SLAM中定義的密集束調(diào)整層(DBA)來(lái)map stream revisions,以更新當(dāng)前估計(jì)的逐像素深度和姿態(tài),成本函數(shù)可以定義如下:

ef7d1a0c-e63c-11ed-ab56-dac502259ad0.png

3)VO增強(qiáng)型VPS模塊

視頻全景分割旨在獲得每幀的全景分割結(jié)果,并保持幀間分割的一致性。為了提高分割精度和跟蹤精度,F(xiàn)useTrack等一些方法試圖利用光流信息對(duì)特征進(jìn)行融合,并根據(jù)特征的相似性進(jìn)行跟蹤。這些方法僅來(lái)自可能遇到遮擋或劇烈運(yùn)動(dòng)的2D視角。我們生活在一個(gè)3D世界中,可以使用額外的深度信息來(lái)更好地建模場(chǎng)景。本文的VO增強(qiáng)型VPS模塊正是基于這一理解,能夠更好地解決上述問(wèn)題。

圖5顯示了VO增強(qiáng)型VPS模塊,該模塊通過(guò)使用從視覺(jué)里程計(jì)獲得的深度、姿態(tài)和光流信息,將前一幀t?1的特征wrap到當(dāng)前幀t,從而獲得wrap的特征。在線融合模塊將融合當(dāng)前幀t的特征和wrap的特征,以獲得融合的特征。為了保持視頻分割的一致性,首先將wrap的特征t?1(包含幾何運(yùn)動(dòng)信息)和融合的特征圖t輸入解碼器,分別獲得全景分割t?1和t,然后使用簡(jiǎn)單的IoU匹配模塊來(lái)獲得一致的全景分割,該結(jié)果將被輸入Panoptic增強(qiáng)型VO模塊。

ef88ea62-e63c-11ed-ab56-dac502259ad0.png

4)遞歸迭代優(yōu)化

受EM算法的啟發(fā),可以以遞歸迭代的方式優(yōu)化所提出的全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊,直到收斂。在實(shí)驗(yàn)上,循環(huán)通常只需要兩次迭代就可以收斂,表5和表6表明,反復(fù)迭代優(yōu)化可以提高VPS和VO模塊的性能。

efa1818a-e63c-11ed-ab56-dac502259ad0.pngefac750e-e63c-11ed-ab56-dac502259ad0.png

5)實(shí)施細(xì)則

PVO由PyTorch實(shí)現(xiàn),由三個(gè)主要模塊組成:圖像全景分割、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。本文使用三個(gè)階段來(lái)訓(xùn)練網(wǎng)絡(luò),在KITTI數(shù)據(jù)集上訓(xùn)練圖像全景分割作為初始化。在PanopticFCN之后,訓(xùn)練過(guò)程中采用了多尺度縮放策略。在兩個(gè)GeForce RTX 3090 GPU上以1e-4的初始速率優(yōu)化網(wǎng)絡(luò),其中每個(gè)小批量有八個(gè)圖像,SGD優(yōu)化器的使用具有1e-4的重量衰減和0.9的動(dòng)量。

全景增強(qiáng)VO模塊的訓(xùn)練遵循DROIDSLAM,只是它額外提供了地面實(shí)況全景分割結(jié)果。在訓(xùn)練VO增強(qiáng)視頻全景分割模塊時(shí),使用GT深度、光流和姿態(tài)信息作為幾何先驗(yàn)來(lái)對(duì)齊特征,并固定訓(xùn)練的單圖像全景分割的主干,然后僅訓(xùn)練融合模塊。該網(wǎng)絡(luò)在一個(gè)GeForce RTX 3090 GPU上以1e-5的初始學(xué)習(xí)率進(jìn)行了優(yōu)化,其中每個(gè)批次有八個(gè)圖像。當(dāng)融合網(wǎng)絡(luò)基本收斂時(shí),添加了一個(gè)分割一致性損失函數(shù)來(lái)進(jìn)一步完善VPS模塊!

實(shí)驗(yàn)結(jié)果

1)視覺(jué)里程計(jì)

本文在三個(gè)具有動(dòng)態(tài)場(chǎng)景的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):Virtual KITTI、KITTI和TUM RGBD動(dòng)態(tài)序列,使用絕對(duì)軌跡誤差(ATE)進(jìn)行評(píng)估。對(duì)于視頻全景分割,在cityscape和VIPER數(shù)據(jù)集上使用視頻全景質(zhì)量(VPQ)度量。本文進(jìn)一步對(duì)Virtual KITTI進(jìn)行消融研究,以分析本文的框架設(shè)計(jì)。最后,展示了PVO在視頻編輯方面的適用性,如補(bǔ)充材料中的第B節(jié)所示。

VKITTI2

虛擬KITTI數(shù)據(jù)集[3]由從KITTI跟蹤基準(zhǔn)克隆的5個(gè)序列組成,為每個(gè)序列提供RGB、深度、類(lèi)分割、實(shí)例分割、相機(jī)姿態(tài)、flow和場(chǎng)景flow數(shù)據(jù)。如表6和圖6所示,在大多數(shù)序列中,本文的PVO以很大的優(yōu)勢(shì)優(yōu)于DROID SLAM,并在序列02中實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能。

efb6e368-e63c-11ed-ab56-dac502259ad0.pngefc1029e-e63c-11ed-ab56-dac502259ad0.png

KITTI

KITTI是一個(gè)捕捉真實(shí)世界交通場(chǎng)景的數(shù)據(jù)集,從農(nóng)村地區(qū)的高速公路到擁有大量靜態(tài)和動(dòng)態(tài)對(duì)象的城市街道。本文將在VKITTI2[3]數(shù)據(jù)集上訓(xùn)練的PVO模型應(yīng)用于KITTI序列。如圖6所示,PVO的姿態(tài)估計(jì)誤差僅為DROID-SLAM的一半,這證明了PVO具有良好的泛化能力。表1顯示了KITTI和VKITTI數(shù)據(jù)集上的完整SLAM比較結(jié)果,其中PVO在大多數(shù)情況下都大大優(yōu)于DROID-SLAM和DynaSLAM,DynaSLAM在VKITTI2 02、06和18序列中屬于災(zāi)難性系統(tǒng)故障。

efcc0c98-e63c-11ed-ab56-dac502259ad0.png

TUM-RGBD

TUM RGBD是一個(gè)用手持相機(jī)捕捉室內(nèi)場(chǎng)景的數(shù)據(jù)集,本文選擇TUM RGBD數(shù)據(jù)集的動(dòng)態(tài)序列來(lái)顯示本文的方法的有效性。將PVO與DROIDSLAM以及三種最先進(jìn)的動(dòng)態(tài)RGB-D SLAM系統(tǒng)進(jìn)行了比較,即DVO-SLAM、ORB-SLAM2和PointCorr。請(qǐng)注意,PVO和DROID-SLAM僅使用單目RGB視頻。表2表明PVO在所有場(chǎng)景中都優(yōu)于DROID-SLAM,與傳統(tǒng)的RGB-D SLAM系統(tǒng)相比,本文的方法在大多數(shù)場(chǎng)景中也表現(xiàn)得更好。

efed4750-e63c-11ed-ab56-dac502259ad0.png

2)視頻全景分割

將PVO與三種基于實(shí)例的視頻全景分割方法進(jìn)行了比較,即VPSNetTrack、VPSNetFuseTrack和SiamTrack。在圖像全景分割模型UPSNet的基礎(chǔ)上,VPSNetTrack還添加了MaskTrack head,以形成視頻全景分割模型。基于VPSNet Track的VPSNet FuseTrack額外注入了時(shí)間特征聚合和融合,而SiamTrack利用pixel-tubel 匹配損失和對(duì)比度損耗對(duì)VPSNet Track進(jìn)行微調(diào),性能略有提高,比較VPSNet FuseTrack主要是因?yàn)镾iamTrack的代碼不可用。

Cityscape:本文在VPS中采用了Cityscape的公共訓(xùn)練/val/test分割,其中每個(gè)視頻包含30個(gè)連續(xù)幀,每五幀有相應(yīng)的GT注釋。表3表明,使用PanopticFCN的方法在val數(shù)據(jù)集上優(yōu)于最先進(jìn)的方法,實(shí)現(xiàn)了比VPSNet Track高+1.6%VPQ。與VPSNetFuseTrack相比,本文的方法略有改進(jìn),可以保持一致的視頻分割,如補(bǔ)充材料中的圖A4所示。原因是由于內(nèi)存有限,論文的VO模塊只能獲得1/8分辨率的光流和深度。

VIPER:VIPER維護(hù)了大量高質(zhì)量的全景視頻注釋,這是另一個(gè)視頻全景分割基準(zhǔn)。遵循VPS[19],并采用其公共train/val拆分。使用從日常場(chǎng)景中選擇的10個(gè)視頻,每個(gè)視頻的前60幀用于評(píng)估。表4表明,與VPSNet FuseTrack相比,PanopticFCN方法在VIPER數(shù)據(jù)集上獲得了更高的分?jǐn)?shù)(+3.1VPQ)。

effd0316-e63c-11ed-ab56-dac502259ad0.png

3)消融實(shí)驗(yàn)

VPS增強(qiáng)型VO模塊:在全景增強(qiáng)型VO模塊中,使用DROID-SLAM作為基線,(VPS->VO)意味著增加了全景信息先驗(yàn)以增強(qiáng)VO基線,(VPS->VO x2)意味著可以迭代優(yōu)化VO模塊兩次。(VPS->VO x3)意味著對(duì)VO模塊進(jìn)行3次反復(fù)迭代優(yōu)化,表6和圖7顯示,在大多數(shù)高度動(dòng)態(tài)的VKITTI2數(shù)據(jù)集上,全景信息可以幫助提高DROID-SLAM的準(zhǔn)確性,遞歸迭代優(yōu)化可以進(jìn)一步改善結(jié)果。

VO增強(qiáng)型VPS模塊:為了評(píng)估VO是否有助于VPS,首先使用PanopticFPN來(lái)獲得每個(gè)幀的全景分割結(jié)果,然后使用來(lái)自RAFT的光流信息進(jìn)行幀間跟蹤,這被設(shè)置為VPS基線。(VPS基線+w/fusion)意味著額外地將特征與流量估計(jì)相融合。(VO->VPS+w/o融合)意味著在基線之上使用額外的深度、姿勢(shì)和其他信息,(VO->VPS)意味著我們額外融合了該功能。

VO增強(qiáng)型VPS模塊中的在線融合:為了驗(yàn)證所提出的特征對(duì)齊損失(fea損失)和分割一致性損失(seg損失)的有效性,方法如下:(VO->VPS+w/fusion+w/o fealoss)意味著在沒(méi)有特征對(duì)齊損失的情況下訓(xùn)練在線融合模塊,(VO->VPS+w/fusion+w/o-seg loss)意味著在沒(méi)有Segmentation Consistent loss的情況下訓(xùn)練在線融合模塊,表5展示了這兩種損失函數(shù)的有效性!

一些結(jié)論

論文提出了一種新的全景視覺(jué)里程計(jì)方法,該方法在統(tǒng)一的視圖中對(duì)VO和VPS進(jìn)行建模,使這兩項(xiàng)任務(wù)能夠相互促進(jìn)。全景更新模塊可以幫助改進(jìn)姿態(tài)估計(jì),而在線融合模塊有助于改進(jìn)全景分割。大量實(shí)驗(yàn)表明,本文的PVO在這兩項(xiàng)任務(wù)中都優(yōu)于最先進(jìn)的方法。局限性主要是PVO建立在DROID-SLAM和全景分割的基礎(chǔ)上,這使得網(wǎng)絡(luò)很重,需要大量?jī)?nèi)存。盡管PVO可以在動(dòng)態(tài)場(chǎng)景中穩(wěn)健地執(zhí)行,但它忽略了當(dāng)攝像機(jī)返回到之前的位置時(shí)環(huán)路閉合的問(wèn)題,探索一種低成本、高效的閉環(huán)SLAM系統(tǒng)是未來(lái)的工作。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 攝像機(jī)
    +關(guān)注

    關(guān)注

    3

    文章

    1684

    瀏覽量

    61021
  • Droid
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    6463
  • SLAM
    +關(guān)注

    關(guān)注

    24

    文章

    434

    瀏覽量

    32302
  • vps
    vps
    +關(guān)注

    關(guān)注

    1

    文章

    114

    瀏覽量

    12184

原文標(biāo)題:CVPR 2023 | PVO:全景視覺(jué)里程計(jì)(VO和全景分割雙SOTA)!

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    結(jié)合IMU(慣性測(cè)量單元)進(jìn)行多傳感器融合。 三、總結(jié)與展望 技術(shù)融合趨勢(shì) 機(jī)器人視覺(jué)與SLAM的結(jié)合(如視覺(jué)慣性里程計(jì)VIO)是當(dāng)前研究熱點(diǎn),未來(lái)可能進(jìn)步結(jié)合語(yǔ)義SLAM,讓機(jī)
    發(fā)表于 05-03 19:41

    一種新型激光雷達(dá)慣性視覺(jué)里程計(jì)系統(tǒng)介紹

    針對(duì)具有挑戰(zhàn)性的光照條件和惡劣環(huán)境,本文提出了LIR-LIVO,這是一種輕量級(jí)且穩(wěn)健的激光雷達(dá)-慣性-視覺(jué)里程計(jì)系統(tǒng)。通過(guò)采用諸如利用深度與激光雷達(dá)點(diǎn)云關(guān)聯(lián)實(shí)現(xiàn)特征的均勻深度分布等先進(jìn)技術(shù),以及利用
    的頭像 發(fā)表于 04-28 11:18 ?165次閱讀
    <b class='flag-5'>一種</b>新型激光雷達(dá)慣性<b class='flag-5'>視覺(jué)</b><b class='flag-5'>里程計(jì)</b>系統(tǒng)<b class='flag-5'>介紹</b>

    一種實(shí)時(shí)多線程VSLAM框架vS-Graphs介紹

    針對(duì)現(xiàn)有VSLAM系統(tǒng)語(yǔ)義表達(dá)不足、地圖可解釋性差的問(wèn)題,本文提出vS-Graphs,一種實(shí)時(shí)多線程VSLAM框架。該方案顯著提升了重建地圖的語(yǔ)義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?231次閱讀
    <b class='flag-5'>一種</b>實(shí)時(shí)多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介紹</b>

    無(wú)線電愛(ài)好者實(shí)用電子制作精選

    魔音門(mén)鈴,對(duì)講音樂(lè)門(mén)鈴,自動(dòng)穩(wěn)光的調(diào)光臺(tái)燈,自熄臺(tái)燈,音樂(lè)彩燈,彩虹吸頂燈,簡(jiǎn)易卡拉OK話筒,簡(jiǎn)易電視天線放大器,電熱毯通電指示器,電飯煲火力調(diào)制器,電冰箱溫度顯示器,家用電器簡(jiǎn)易過(guò)壓保護(hù)器,視力保護(hù)測(cè)光器,聲控音樂(lè)娃娃,電子溫度計(jì),自行車(chē)里程計(jì)等等。
    發(fā)表于 04-07 11:26

    成像式亮度色度計(jì)產(chǎn)品原理及應(yīng)用介紹

    成像式亮度色度計(jì)工作原理:成像式亮度色度計(jì)一種基于成像原理來(lái)進(jìn)行測(cè)光和測(cè)色的測(cè)量?jī)x器,基本結(jié)構(gòu)是由視覺(jué)(或色覺(jué))匹配的探測(cè)器(CCD或CMOS)、光學(xué)系統(tǒng)以及與亮度(或三刺激值XYZ)成比例的信號(hào)
    的頭像 發(fā)表于 01-16 11:05 ?810次閱讀
    成像式亮度色度<b class='flag-5'>計(jì)</b>產(chǎn)品原理及應(yīng)用<b class='flag-5'>介紹</b>

    AI開(kāi)發(fā)框架集成介紹

    隨著AI應(yīng)用的廣泛深入,單框架往往難以滿足多樣化的需求,因此,AI開(kāi)發(fā)框架的集成成為了提升開(kāi)發(fā)效率、促進(jìn)技術(shù)創(chuàng)新的關(guān)鍵路徑。以下,是對(duì)AI開(kāi)發(fā)框架集成的
    的頭像 發(fā)表于 01-07 15:58 ?445次閱讀

    用于任意排列多相機(jī)的通用視覺(jué)里程計(jì)系統(tǒng)

    如何讓多相機(jī)視覺(jué)SLAM系統(tǒng)更易于部署且對(duì)環(huán)境更具魯棒性?本文提出了一種適用于任意排列多相機(jī)的通用視覺(jué)里程計(jì)系統(tǒng)。在KITTI-360和MultiCamData數(shù)據(jù)集上驗(yàn)證了該方法對(duì)于
    的頭像 發(fā)表于 12-13 11:22 ?624次閱讀
    用于任意排列多相機(jī)的通用<b class='flag-5'>視覺(jué)</b><b class='flag-5'>里程計(jì)</b>系統(tǒng)

    一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架

    天地氣動(dòng)數(shù)據(jù)致性,針對(duì)某外形飛行試驗(yàn)數(shù)據(jù)開(kāi)展了典型對(duì)象的天地氣動(dòng)數(shù)據(jù)融合方法研究。結(jié)合數(shù)據(jù)挖掘的隨機(jī)森林方法,本文提出了一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架,通過(guò)引入地面風(fēng)洞試驗(yàn)氣動(dòng)數(shù)據(jù),實(shí)現(xiàn)了對(duì)復(fù)雜輸入?yún)?shù)的特征
    的頭像 發(fā)表于 11-27 11:34 ?680次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗(yàn)的數(shù)據(jù)融合<b class='flag-5'>框架</b>

    滲壓計(jì)和水位計(jì)之間有什么區(qū)別?

    問(wèn)題,南京峟思今天就來(lái)給大家簡(jiǎn)單的介紹下:滲壓計(jì)和水位計(jì)之間有什么區(qū)別?1.滲壓計(jì)滲壓計(jì)
    的頭像 發(fā)表于 11-26 15:18 ?486次閱讀
    滲壓<b class='flag-5'>計(jì)</b>和水位<b class='flag-5'>計(jì)</b>之間有什么區(qū)別?

    基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav

    本文提出了一種視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在步中直接選擇動(dòng)作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為
    的頭像 發(fā)表于 11-22 09:42 ?675次閱讀

    投入式水位計(jì)是什么?投入式水位計(jì)怎么安裝

    投入式水位計(jì)一種在工程領(lǐng)域中廣泛應(yīng)用的監(jiān)測(cè)儀器,主要用于測(cè)量和顯示水位的變化量。本文將詳細(xì)介紹投入式水位計(jì)的定義、特點(diǎn)以及安裝步驟,幫助大家更好地理解和應(yīng)用這
    的頭像 發(fā)表于 11-08 16:08 ?572次閱讀
    投入式水位<b class='flag-5'>計(jì)</b>是什么?投入式水位<b class='flag-5'>計(jì)</b>怎么安裝

    基于旋轉(zhuǎn)平移解耦框架視覺(jué)慣性初始化方法

    精確和魯棒的初始化對(duì)于視覺(jué)慣性里程計(jì)(VIO)至關(guān)重要,因?yàn)椴涣嫉某跏蓟瘯?huì)嚴(yán)重降低姿態(tài)精度。
    的頭像 發(fā)表于 11-01 10:16 ?812次閱讀
    基于旋轉(zhuǎn)平移解耦<b class='flag-5'>框架</b>的<b class='flag-5'>視覺(jué)</b>慣性初始化方法

    一種完全分布式的點(diǎn)線協(xié)同視覺(jué)慣性導(dǎo)航系統(tǒng)

    在本文中,我們提出了一種完全分布式的點(diǎn)線協(xié)同視覺(jué)慣性導(dǎo)航系統(tǒng)。我們通過(guò)蒙特卡羅模擬和真實(shí)環(huán)境數(shù)據(jù)集,在稠密特征或稀疏特征環(huán)境下將所提出的算法與其他四算法進(jìn)行了比較。所有結(jié)果表明,我們的PL-CVIO優(yōu)于獨(dú)立的MSCKF和CVI
    的頭像 發(fā)表于 09-30 14:45 ?763次閱讀
    <b class='flag-5'>一種</b>完全分布式的點(diǎn)線協(xié)同<b class='flag-5'>視覺(jué)</b>慣性導(dǎo)航系統(tǒng)

    全景聲解碼器

    全景聲解碼器是款將音頻技術(shù)推向極致的產(chǎn)品。它不僅提供高質(zhì)量的音頻解碼,還讓用戶體驗(yàn)到一種前所未有的聲音空間。無(wú)論您是想要享受音樂(lè)、觀看電影,還是沉浸于游戲世界,全景聲解碼器都能為您打
    的頭像 發(fā)表于 09-24 10:40 ?742次閱讀
    <b class='flag-5'>全景</b>聲解碼器

    rup是一種什么模型

    部分)開(kāi)發(fā)的,它基于統(tǒng)建模語(yǔ)言(UML)和面向?qū)ο蟮能浖_(kāi)發(fā)方法。RUP提供了一種結(jié)構(gòu)化的方法來(lái)開(kāi)發(fā)軟件,它包括系列的階段、迭代和里程碑,以確保軟件開(kāi)發(fā)過(guò)程的順利進(jìn)行。 RUP的起
    的頭像 發(fā)表于 07-09 10:13 ?2216次閱讀