学生裸身全视频在线观看,掀开奶罩边吃边摸她的大胸,伊甸园2020永久入口

論文提出了PVO，這是一種新的全景視覺(jué)里程計(jì)框架，用于實(shí)現(xiàn)場(chǎng)景運(yùn)動(dòng)、幾何和全景分割信息的更全面建模。提出的PVO在統(tǒng)一的視圖中對(duì)視覺(jué)里程計(jì)（VO）和視頻全景分割（VPS）進(jìn)行建模，這使得這兩項(xiàng)任務(wù)互惠互利。具體來(lái)說(shuō)，在圖像全景分割的指導(dǎo)下，在VO模塊中引入了全景更新模塊。

該全景增強(qiáng)VO模塊可以通過(guò)全景感知?jiǎng)討B(tài)mask來(lái)減輕動(dòng)態(tài)目標(biāo)在相機(jī)姿態(tài)估計(jì)中的影響。另一方面，VO增強(qiáng)型VPS模塊還利用從VO模塊獲得的相機(jī)姿態(tài)、深度和光流等幾何信息，將當(dāng)前幀的全景分割結(jié)果融合到相鄰幀，從而提高了分割精度，這兩個(gè)模塊通過(guò)反復(fù)迭代優(yōu)化相互促進(jìn)。大量實(shí)驗(yàn)表明，PVO在視覺(jué)里程計(jì)和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法。

領(lǐng)域背景

了解場(chǎng)景的運(yùn)動(dòng)、幾何和全景分割在計(jì)算機(jī)視覺(jué)和機(jī)器人技術(shù)中發(fā)揮著至關(guān)重要的作用，其應(yīng)用范圍從自動(dòng)駕駛到增強(qiáng)現(xiàn)實(shí)，本文朝著解決這個(gè)問(wèn)題邁出了一步，以實(shí)現(xiàn)單目視頻場(chǎng)景的更全面建模！已經(jīng)提出了兩項(xiàng)任務(wù)來(lái)解決這個(gè)問(wèn)題，即視覺(jué)里程計(jì)（VO）和視頻全景分割（VPS）。特別地，VO[9，11，38]將單目視頻作為輸入，并在靜態(tài)場(chǎng)景假設(shè)下估計(jì)相機(jī)姿態(tài)。為了處理場(chǎng)景中的動(dòng)態(tài)對(duì)象，一些動(dòng)態(tài)SLAM系統(tǒng)使用實(shí)例分割網(wǎng)絡(luò)進(jìn)行分割，并明確過(guò)濾出某些類(lèi)別的目標(biāo)，這些目標(biāo)可能是動(dòng)態(tài)的，例如行人或車(chē)輛。

然而，這種方法忽略了這樣一個(gè)事實(shí)，即潛在的動(dòng)態(tài)目標(biāo)實(shí)際上可能在場(chǎng)景中是靜止的，例如停放的車(chē)輛。相比之下，VPS專注于在給定一些初始全景分割結(jié)果的情況下，跨視頻幀跟蹤場(chǎng)景中的單個(gè)實(shí)例。當(dāng)前的VPS方法沒(méi)有明確區(qū)分目標(biāo)實(shí)例是否在移動(dòng)，盡管現(xiàn)有的方法廣泛地獨(dú)立地解決了這兩個(gè)任務(wù)，但值得注意的是，場(chǎng)景中的動(dòng)態(tài)目標(biāo)會(huì)使這兩項(xiàng)任務(wù)都具有挑戰(zhàn)性。認(rèn)識(shí)到兩個(gè)任務(wù)之間的這種相關(guān)性，一些方法試圖同時(shí)處理這兩個(gè)任務(wù)，并以多任務(wù)的方式訓(xùn)練運(yùn)動(dòng)語(yǔ)義網(wǎng)絡(luò)，如圖2所示。然而，這些方法中使用的損失函數(shù)可能相互矛盾，從而導(dǎo)致性能下降。

本文提出了一種新的全景視覺(jué)里程計(jì)（PVO）框架，該框架使用統(tǒng)一的視圖將這兩項(xiàng)任務(wù)緊密耦合，以對(duì)場(chǎng)景進(jìn)行全面建模。VPS可以利用全景分割信息調(diào)整VO的權(quán)重（每個(gè)實(shí)例的像素的權(quán)重應(yīng)該相互關(guān)聯(lián)），VO可以將視頻全景分割的跟蹤和融合從2D轉(zhuǎn)換為3D。受開(kāi)創(chuàng)性的期望最大化算法的啟發(fā)，遞歸迭代優(yōu)化策略可以使這兩項(xiàng)任務(wù)互惠互利。

PVO由三個(gè)模塊組成，一個(gè)圖像全景分割模塊、一個(gè)全景增強(qiáng)型VO模塊和一個(gè)VO增強(qiáng)型VPS模塊。全景分割模塊獲取單個(gè)圖像并輸出圖像全景分割結(jié)果，然后被饋送到全景增強(qiáng)VO模塊中作為初始化。注意，盡管本文選擇PanopticFPN，但任何分割模型都可以用于全景分割模塊。在全景增強(qiáng)VO模塊，提出了一個(gè)全景更新模塊來(lái)過(guò)濾動(dòng)態(tài)目標(biāo)的干擾，從而提高了動(dòng)態(tài)場(chǎng)景中姿態(tài)估計(jì)的準(zhǔn)確性。在VO增強(qiáng)的VPS模塊中，引入了一種在線融合機(jī)制，根據(jù)估計(jì)的姿態(tài)、深度和光流，將當(dāng)前幀的多分辨率特征與相鄰幀對(duì)齊，這種在線融合機(jī)制可以有效地解決多目標(biāo)遮擋的問(wèn)題。實(shí)驗(yàn)表明，遞歸迭代優(yōu)化策略提高了VO和VPS的性能。本文的主要貢獻(xiàn)概括為四個(gè)方面：

1.本文提出了一種新的全景視覺(jué)里程計(jì)（PVO）框架，該框架可以將VO和VPS任務(wù)統(tǒng)一起來(lái)，對(duì)場(chǎng)景進(jìn)行全面建模；

2.引入全景更新模塊，并將其納入全景增強(qiáng)VO模塊，以改進(jìn)姿態(tài)估計(jì)；

3.在VOEnhanced VPS模塊中提出了一種在線融合機(jī)制，有助于改進(jìn)視頻全景分割；

4.大量實(shí)驗(yàn)表明，提出的具有遞歸迭代優(yōu)化的PVO在視覺(jué)里程計(jì)和視頻全景分割任務(wù)中都優(yōu)于最先進(jìn)的方法；

1）視頻全景分割

視頻全景分割旨在生成一致的全景分割，并跟蹤視頻幀中所有像素的實(shí)例。作為一項(xiàng)先驅(qū)工作，VPSNet定義了這項(xiàng)新任務(wù)，并提出了一種基于實(shí)例級(jí)跟蹤的方法。SiamTrack通過(guò)提出pixel-tube匹配損失和對(duì)比度損失來(lái)擴(kuò)展VPSNet，以提高實(shí)例嵌入的判別能力。VIPDeplab通過(guò)引入額外的深度信息，提供了一個(gè)深度感知VPS網(wǎng)絡(luò)。而STEP提出對(duì)視頻全景分割的每個(gè)像素進(jìn)行分割和跟蹤，HybridTracker提出從兩個(gè)角度跟蹤實(shí)例：特征空間和空間位置。與現(xiàn)有方法不同，本文引入了一種VO增強(qiáng)的VPS模塊，該模塊利用VO估計(jì)的相機(jī)姿態(tài)、深度和光流來(lái)跟蹤和融合從當(dāng)前幀到相鄰幀的信息，并可以處理遮擋。

2）SLAM和視覺(jué)里程計(jì)

SLAM同時(shí)進(jìn)行定位和地圖構(gòu)建，視覺(jué)里程計(jì)作為SLAM的前端，專注于姿態(tài)估計(jì)。現(xiàn)代SLAM系統(tǒng)大致分為兩類(lèi)，基于幾何的方法和基于學(xué)習(xí)的方法。由于基于監(jiān)督學(xué)習(xí)的方法具有良好的性能，基于無(wú)監(jiān)督學(xué)習(xí)的VO方法受到了廣泛的關(guān)注，但它們的性能不如有監(jiān)督的方法。一些無(wú)監(jiān)督方法利用多任務(wù)學(xué)習(xí)和深度和光流等輔助任務(wù)來(lái)提高性能。

最近，TartanVO提出建立一個(gè)可推廣基于學(xué)習(xí)的VO，并在具有挑戰(zhàn)性的SLAM數(shù)據(jù)集TartanAir上測(cè)試該系統(tǒng)。DROID-SLAM提出使用bundle adjustment層迭代更新相機(jī)姿態(tài)和像素深度，并展示了卓越的性能。DeFlowSLAM進(jìn)一步提出了dual-flow表示和自監(jiān)督方法，以提高SLAM系統(tǒng)在動(dòng)態(tài)場(chǎng)景中的性能。為了應(yīng)對(duì)動(dòng)態(tài)場(chǎng)景的挑戰(zhàn)，動(dòng)態(tài)SLAM系統(tǒng)通常利用語(yǔ)義信息作為約束但它們主要作用于stereo、RGBD或LiDAR序列。相反，本文引入了全景更新模塊，并在DROID-SLAM上構(gòu)建了全景增強(qiáng)型VO，可以用于單目視頻。這樣的組合可以更好地理解場(chǎng)景幾何和語(yǔ)義，從而對(duì)場(chǎng)景中的動(dòng)態(tài)對(duì)象更加魯棒。與其它多任務(wù)端到端模型不同，本文的PVO具有循環(huán)迭代優(yōu)化策略，可以防止任務(wù)相互干擾。

本文提出的方法

給定一個(gè)單目視頻，PVO的目標(biāo)是同時(shí)定位和全景3D映射。圖3描述了PVO模型的框架，它由三個(gè)主要模塊組成：圖像全景分割模塊、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。VO模塊旨在估計(jì)攝像機(jī)的姿態(tài)、深度和光流，而VPS模塊輸出相應(yīng)的視頻全景分割，最后兩個(gè)模塊以反復(fù)互動(dòng)的方式相互促進(jìn)！

1）圖像全景分割

圖像全景分割以單個(gè)圖像為輸入，輸出圖像的全景分割結(jié)果，將語(yǔ)義分割和實(shí)例分割相結(jié)合，對(duì)圖像的實(shí)例進(jìn)行綜合建模。輸出結(jié)果用于初始化視頻全景分割，然后輸入全景增強(qiáng)VO模塊。在本文的實(shí)驗(yàn)中，如果沒(méi)有特別指出，使用廣泛使用的圖像全景分割網(wǎng)絡(luò)PanopticFPN。PanopticFPN建立在具有權(quán)重θ_e的ResNetf_{θ_e}的主干上，并提取圖像的多尺度特征I_t：

它使用具有權(quán)重θ_d的解碼器g_{θ_d}輸出全景分割結(jié)果，該解碼器由語(yǔ)義分割和實(shí)例分割組成，每個(gè)像素p的全景分割結(jié)果為：

被饋送到解碼器中的多尺度特征隨著時(shí)間的推移而更新。一開(kāi)始，編碼器生成的多尺度特征被直接輸入解碼器（圖3藍(lán)色部分）。在隨后的時(shí)間步長(zhǎng)中，這些多尺度特征在被饋送到解碼器之前用在線特征融合模塊進(jìn)行更新。

2）全景增強(qiáng) VO 模塊

在視覺(jué)里程計(jì)中，動(dòng)態(tài)場(chǎng)景無(wú)處不在，過(guò)濾掉動(dòng)態(tài)目標(biāo)的干擾至關(guān)重要。DROID-SLAM的前端以單目視頻{{I_t}}^N_{t=0}為輸入，并優(yōu)化相機(jī)姿態(tài){G_t}^N_{t=0}∈SE(3)和反深度d_t∈R^{H×W}+，通過(guò)迭代優(yōu)化光流delta r{ij}∈R^{HW2}。它不考慮大多數(shù)背景是靜態(tài)的，前景目標(biāo)可能是動(dòng)態(tài)的，并且每個(gè)目標(biāo)的像素權(quán)重應(yīng)該是相關(guān)的。全景增強(qiáng)VO模塊（見(jiàn)圖4）是通過(guò)結(jié)合全景分割的信息，幫助獲得更好的置信度估計(jì)（見(jiàn)圖7），因此，全景增強(qiáng)VO可以獲得更精確的相機(jī)姿勢(shì)。接下來(lái)，將簡(jiǎn)要回顧DROID-SLAM的類(lèi)似部分（特征提取和相關(guān)性），并重點(diǎn)介紹全景更新模塊的復(fù)雜設(shè)計(jì)。

特征提取：與DROID-SLAM類(lèi)似，全景增強(qiáng)VO模塊借用了RAFT的關(guān)鍵組件來(lái)提取特征。本文使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)（一個(gè)特征編碼器和一個(gè)上下文編碼器）提取每個(gè)圖像的多尺度特征，其中利用特征編碼器的特征構(gòu)建成對(duì)圖像的4D相關(guān)volumes，并將上下文編碼器的特征注入全景更新模塊。特征編碼器的結(jié)構(gòu)類(lèi)似于全景分割網(wǎng)絡(luò)的主干，并且它們可以使用共享編碼器。

相關(guān)金字塔和查找表：與DROIDSLAM類(lèi)似，本文采用幀圖（V，E）來(lái)指示幀之間的共同可見(jiàn)性。例如，邊（i，j）∈E表示保持重疊區(qū)域的兩個(gè)圖像I_i和I_j，并且可以通過(guò)這兩個(gè)圖像的特征向量之間的點(diǎn)積來(lái)構(gòu)建4D相關(guān)volumes：

遵循平均池化層以獲得金字塔相關(guān)性，本文使用DROID-SLAM中定義的相同查找運(yùn)算符來(lái)使用雙線性插值對(duì)金字塔相關(guān)volumes值進(jìn)行索引，這些相關(guān)特征被串聯(lián)，從而產(chǎn)生最終的特征向量。Panoptic增強(qiáng)型VO模塊繼承了DROID-SLAM的前端VO模塊，利用全景分割信息來(lái)調(diào)整VO的權(quán)重。將通過(guò)將初始光流饋送到流編碼器而獲得的flow信息和從兩幀建立的4D相關(guān)volumes以及上下文編碼器獲取的特征作為中間變量饋送到GRU，然后三個(gè)卷積層輸出動(dòng)態(tài)掩碼M_{d_{ij}}，相關(guān)置信度map w_{ij}和稠密光流delta r_{ij}。給定初始化的全景分割，可以將動(dòng)態(tài)掩碼調(diào)整為全景感知?jiǎng)討B(tài)掩碼，為了便于理解，保持符號(hào)不變。置信度和全景感知?jiǎng)討B(tài)掩碼通過(guò)全景感知濾波器模塊以獲得全景感知置信度：

深度和動(dòng)態(tài)的殘差掩碼被添加到當(dāng)前深度和動(dòng)態(tài)掩碼，分別為：

Correspondence：首先在每次迭代中使用當(dāng)前的姿態(tài)和深度估計(jì)來(lái)搜索對(duì)應(yīng)關(guān)系。參考DROID-SLAM，對(duì)于幀i中的每個(gè)像素坐標(biāo)pi，幀圖中每個(gè)邊（i，j）∈E的稠密對(duì)應(yīng)域pij可以計(jì)算如下：

DBA層：使用DROID-SLAM中定義的密集束調(diào)整層（DBA）來(lái)map stream revisions，以更新當(dāng)前估計(jì)的逐像素深度和姿態(tài)，成本函數(shù)可以定義如下：

3）VO增強(qiáng)型VPS模塊

視頻全景分割旨在獲得每幀的全景分割結(jié)果，并保持幀間分割的一致性。為了提高分割精度和跟蹤精度，F(xiàn)useTrack等一些方法試圖利用光流信息對(duì)特征進(jìn)行融合，并根據(jù)特征的相似性進(jìn)行跟蹤。這些方法僅來(lái)自可能遇到遮擋或劇烈運(yùn)動(dòng)的2D視角。我們生活在一個(gè)3D世界中，可以使用額外的深度信息來(lái)更好地建模場(chǎng)景。本文的VO增強(qiáng)型VPS模塊正是基于這一理解，能夠更好地解決上述問(wèn)題。

圖5顯示了VO增強(qiáng)型VPS模塊，該模塊通過(guò)使用從視覺(jué)里程計(jì)獲得的深度、姿態(tài)和光流信息，將前一幀t?1的特征wrap到當(dāng)前幀t，從而獲得wrap的特征。在線融合模塊將融合當(dāng)前幀t的特征和wrap的特征，以獲得融合的特征。為了保持視頻分割的一致性，首先將wrap的特征t?1（包含幾何運(yùn)動(dòng)信息）和融合的特征圖t輸入解碼器，分別獲得全景分割t?1和t，然后使用簡(jiǎn)單的IoU匹配模塊來(lái)獲得一致的全景分割，該結(jié)果將被輸入Panoptic增強(qiáng)型VO模塊。

4）遞歸迭代優(yōu)化

受EM算法的啟發(fā)，可以以遞歸迭代的方式優(yōu)化所提出的全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊，直到收斂。在實(shí)驗(yàn)上，循環(huán)通常只需要兩次迭代就可以收斂，表5和表6表明，反復(fù)迭代優(yōu)化可以提高VPS和VO模塊的性能。

5）實(shí)施細(xì)則

PVO由PyTorch實(shí)現(xiàn)，由三個(gè)主要模塊組成：圖像全景分割、全景增強(qiáng)VO模塊和VO增強(qiáng)VPS模塊。本文使用三個(gè)階段來(lái)訓(xùn)練網(wǎng)絡(luò)，在KITTI數(shù)據(jù)集上訓(xùn)練圖像全景分割作為初始化。在PanopticFCN之后，訓(xùn)練過(guò)程中采用了多尺度縮放策略。在兩個(gè)GeForce RTX 3090 GPU上以1e-4的初始速率優(yōu)化網(wǎng)絡(luò)，其中每個(gè)小批量有八個(gè)圖像，SGD優(yōu)化器的使用具有1e-4的重量衰減和0.9的動(dòng)量。

全景增強(qiáng)VO模塊的訓(xùn)練遵循DROIDSLAM，只是它額外提供了地面實(shí)況全景分割結(jié)果。在訓(xùn)練VO增強(qiáng)視頻全景分割模塊時(shí)，使用GT深度、光流和姿態(tài)信息作為幾何先驗(yàn)來(lái)對(duì)齊特征，并固定訓(xùn)練的單圖像全景分割的主干，然后僅訓(xùn)練融合模塊。該網(wǎng)絡(luò)在一個(gè)GeForce RTX 3090 GPU上以1e-5的初始學(xué)習(xí)率進(jìn)行了優(yōu)化，其中每個(gè)批次有八個(gè)圖像。當(dāng)融合網(wǎng)絡(luò)基本收斂時(shí)，添加了一個(gè)分割一致性損失函數(shù)來(lái)進(jìn)一步完善VPS模塊！

實(shí)驗(yàn)結(jié)果

1）視覺(jué)里程計(jì)

本文在三個(gè)具有動(dòng)態(tài)場(chǎng)景的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)：Virtual KITTI、KITTI和TUM RGBD動(dòng)態(tài)序列，使用絕對(duì)軌跡誤差（ATE）進(jìn)行評(píng)估。對(duì)于視頻全景分割，在cityscape和VIPER數(shù)據(jù)集上使用視頻全景質(zhì)量（VPQ）度量。本文進(jìn)一步對(duì)Virtual KITTI進(jìn)行消融研究，以分析本文的框架設(shè)計(jì)。最后，展示了PVO在視頻編輯方面的適用性，如補(bǔ)充材料中的第B節(jié)所示。

VKITTI2

虛擬KITTI數(shù)據(jù)集[3]由從KITTI跟蹤基準(zhǔn)克隆的5個(gè)序列組成，為每個(gè)序列提供RGB、深度、類(lèi)分割、實(shí)例分割、相機(jī)姿態(tài)、flow和場(chǎng)景flow數(shù)據(jù)。如表6和圖6所示，在大多數(shù)序列中，本文的PVO以很大的優(yōu)勢(shì)優(yōu)于DROID SLAM，并在序列02中實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能。

KITTI

KITTI是一個(gè)捕捉真實(shí)世界交通場(chǎng)景的數(shù)據(jù)集，從農(nóng)村地區(qū)的高速公路到擁有大量靜態(tài)和動(dòng)態(tài)對(duì)象的城市街道。本文將在VKITTI2[3]數(shù)據(jù)集上訓(xùn)練的PVO模型應(yīng)用于KITTI序列。如圖6所示，PVO的姿態(tài)估計(jì)誤差僅為DROID-SLAM的一半，這證明了PVO具有良好的泛化能力。表1顯示了KITTI和VKITTI數(shù)據(jù)集上的完整SLAM比較結(jié)果，其中PVO在大多數(shù)情況下都大大優(yōu)于DROID-SLAM和DynaSLAM，DynaSLAM在VKITTI2 02、06和18序列中屬于災(zāi)難性系統(tǒng)故障。

TUM-RGBD

TUM RGBD是一個(gè)用手持相機(jī)捕捉室內(nèi)場(chǎng)景的數(shù)據(jù)集，本文選擇TUM RGBD數(shù)據(jù)集的動(dòng)態(tài)序列來(lái)顯示本文的方法的有效性。將PVO與DROIDSLAM以及三種最先進(jìn)的動(dòng)態(tài)RGB-D SLAM系統(tǒng)進(jìn)行了比較，即DVO-SLAM、ORB-SLAM2和PointCorr。請(qǐng)注意，PVO和DROID-SLAM僅使用單目RGB視頻。表2表明PVO在所有場(chǎng)景中都優(yōu)于DROID-SLAM，與傳統(tǒng)的RGB-D SLAM系統(tǒng)相比，本文的方法在大多數(shù)場(chǎng)景中也表現(xiàn)得更好。

2）視頻全景分割

將PVO與三種基于實(shí)例的視頻全景分割方法進(jìn)行了比較，即VPSNetTrack、VPSNetFuseTrack和SiamTrack。在圖像全景分割模型UPSNet的基礎(chǔ)上，VPSNetTrack還添加了MaskTrack head，以形成視頻全景分割模型。基于VPSNet Track的VPSNet FuseTrack額外注入了時(shí)間特征聚合和融合，而SiamTrack利用pixel-tubel 匹配損失和對(duì)比度損耗對(duì)VPSNet Track進(jìn)行微調(diào)，性能略有提高，比較VPSNet FuseTrack主要是因?yàn)镾iamTrack的代碼不可用。

Cityscape：本文在VPS中采用了Cityscape的公共訓(xùn)練/val/test分割，其中每個(gè)視頻包含30個(gè)連續(xù)幀，每五幀有相應(yīng)的GT注釋。表3表明，使用PanopticFCN的方法在val數(shù)據(jù)集上優(yōu)于最先進(jìn)的方法，實(shí)現(xiàn)了比VPSNet Track高+1.6%VPQ。與VPSNetFuseTrack相比，本文的方法略有改進(jìn)，可以保持一致的視頻分割，如補(bǔ)充材料中的圖A4所示。原因是由于內(nèi)存有限，論文的VO模塊只能獲得1/8分辨率的光流和深度。

VIPER：VIPER維護(hù)了大量高質(zhì)量的全景視頻注釋，這是另一個(gè)視頻全景分割基準(zhǔn)。遵循VPS[19]，并采用其公共train/val拆分。使用從日常場(chǎng)景中選擇的10個(gè)視頻，每個(gè)視頻的前60幀用于評(píng)估。表4表明，與VPSNet FuseTrack相比，PanopticFCN方法在VIPER數(shù)據(jù)集上獲得了更高的分?jǐn)?shù)（+3.1VPQ）。

3）消融實(shí)驗(yàn)

VPS增強(qiáng)型VO模塊：在全景增強(qiáng)型VO模塊中，使用DROID-SLAM作為基線，（VPS->VO）意味著增加了全景信息先驗(yàn)以增強(qiáng)VO基線，（VPS->VO x2）意味著可以迭代優(yōu)化VO模塊兩次。（VPS->VO x3）意味著對(duì)VO模塊進(jìn)行3次反復(fù)迭代優(yōu)化，表6和圖7顯示，在大多數(shù)高度動(dòng)態(tài)的VKITTI2數(shù)據(jù)集上，全景信息可以幫助提高DROID-SLAM的準(zhǔn)確性，遞歸迭代優(yōu)化可以進(jìn)一步改善結(jié)果。

VO增強(qiáng)型VPS模塊：為了評(píng)估VO是否有助于VPS，首先使用PanopticFPN來(lái)獲得每個(gè)幀的全景分割結(jié)果，然后使用來(lái)自RAFT的光流信息進(jìn)行幀間跟蹤，這被設(shè)置為VPS基線。（VPS基線+w/fusion）意味著額外地將特征與流量估計(jì)相融合。（VO->VPS+w/o融合）意味著在基線之上使用額外的深度、姿勢(shì)和其他信息，（VO->VPS）意味著我們額外融合了該功能。

VO增強(qiáng)型VPS模塊中的在線融合：為了驗(yàn)證所提出的特征對(duì)齊損失（fea損失）和分割一致性損失（seg損失）的有效性，方法如下：（VO->VPS+w/fusion+w/o fealoss）意味著在沒(méi)有特征對(duì)齊損失的情況下訓(xùn)練在線融合模塊，（VO->VPS+w/fusion+w/o-seg loss）意味著在沒(méi)有Segmentation Consistent loss的情況下訓(xùn)練在線融合模塊，表5展示了這兩種損失函數(shù)的有效性！

一些結(jié)論

論文提出了一種新的全景視覺(jué)里程計(jì)方法，該方法在統(tǒng)一的視圖中對(duì)VO和VPS進(jìn)行建模，使這兩項(xiàng)任務(wù)能夠相互促進(jìn)。全景更新模塊可以幫助改進(jìn)姿態(tài)估計(jì)，而在線融合模塊有助于改進(jìn)全景分割。大量實(shí)驗(yàn)表明，本文的PVO在這兩項(xiàng)任務(wù)中都優(yōu)于最先進(jìn)的方法。局限性主要是PVO建立在DROID-SLAM和全景分割的基礎(chǔ)上，這使得網(wǎng)絡(luò)很重，需要大量?jī)?nèi)存。盡管PVO可以在動(dòng)態(tài)場(chǎng)景中穩(wěn)健地執(zhí)行，但它忽略了當(dāng)攝像機(jī)返回到之前的位置時(shí)環(huán)路閉合的問(wèn)題，探索一種低成本、高效的閉環(huán)SLAM系統(tǒng)是未來(lái)的工作。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴