當前基于神經輻射場(NeRF)或3D高斯潑濺(3DGS)的SLAM方法在重建靜態3D場景方面表現出色,但在動態環境中的跟蹤和重建方面卻面臨著挑戰?,F有的基于NeRF的SLAM方法解決動態問題通常依賴于RGB-D輸入,而很少有方法能適應純RGB輸入。為了克服這些局限性,我們提出了Dy3DGS-SLAM,這是首個使用單目RGB輸入的針對動態場景的3D高斯潑濺(3DGS)SLAM方法。實驗結果證明,Dy3DGS-SLAM在動態環境中實現了最先進的跟蹤和渲染效果,優于或達到了現有的RGB-D方法的水平。
? 文章:
Dy3DGS-SLAM: Monocular 3D Gaussian Splatting SLAM for Dynamic Environments
? 作者:
Mingrui Li, Yiming Zhou, Hongxing Zhou, Xinggang Hu, Florian Roemer, Hongyu Wang, Ahmad Osman
? 論文鏈接:
https://arxiv.org/abs/2506.05965
? 編譯:
INDEMIND
01 本文核心內容
近期,基于NeRF或3DGS的密集SLAM系統引起了廣泛關注。這些系統在靜態場景中實現了逼真的渲染效果,并逐漸向大規?;蚋咛魬鹦缘膱鼍巴卣埂H欢?,由于現實世界中存在大量動態物體,這類SLAM系統在應對這一挑戰時卻表現不佳。另一個受到關注的問題是如何在不依賴RGB-D傳感器,僅使用單目RGB輸入的情況下取得更好的效果,該類傳感器更易獲取,且具有更大的潛力。
盡管一些基于NeRF的方法,如DN-SLAM、DDNSLAM、NID-SLAM和RoDyn-SLAM已嘗試解決動態物體的問題,但它們往往依賴于預定義的動態先驗或嚴重依賴深度先驗來確定動態物體掩碼,這使得它們在僅有單目RGB輸入的環境中難以適用。
此外,由于NeRF表示的局限性,渲染精度受到限制,常常導致嚴重的渲染偽影。基于3DGS的諸如SplaTAM、Photo-SLAM和MonoGS等SLAM系統在靜態環境中表現良好,但在動態場景中往往會遇到跟蹤失敗和建圖錯誤的問題。因此,我們提出了Dy3DGS-SLAM,這是首個專為動態環境設計的僅使用RGB的3DGS-SLAM系統。我們利用光流來獲取動態掩碼,無需依賴預定義的移動對象,盡管這些掩碼在紋理均勻或快速運動的區域可能會有噪聲。為了解決這個問題,我們引入了單目深度估計,提供互補的空間線索,特別是在處理遮擋和深度不連續性時。然后,我們提出了一種深度正則化的掩碼融合策略,結合了這兩種模態的優勢,減輕了各自的局限性,生成了更精確、更穩健的動態掩碼。
在跟蹤方面,我們將估計的深度和融合后的掩碼納入運動損失中,有效地在位姿估計網絡中恢復尺度和位姿,從而獲得更準確的跟蹤結果。在渲染方面,為了解決瞬態干擾和遮擋問題,我們根據動態像素的顏色和深度對動態高斯分布進行懲罰。與基準方法相比,我們的方法顯著減少了渲染偽影,并極大地提高了幾何精度。
本文的貢獻可概括為:
?提出了Dy3DGS-SLAM,這是首個僅基于RGB的適用于動態環境的3DGS-SLAM系統,能夠在動態環境中實現穩健的跟蹤和高保真度的重建。
? 提出了一種掩碼融合方法,通過結合光流的運動線索和深度估計的幾何一致性,能夠準確地覆蓋動態對象?;谌诤虾蟮难诖a,我們引入了新穎的運動和渲染損失,以有效減輕動態對象在跟蹤和渲染中的干擾。
? 在三個真實數據集上的實驗結果表明,與基準方法相比,我們的方法在跟蹤和渲染性能方面表現更優。
02 方法架構
我們的系統流程如圖1所示。我們解決了將從光流獲得的動態掩碼與從單目輸入估計的深度圖融合的問題,從而得到精確的動態融合掩碼。我們提出了運動估計網絡,并引入了結合深度估計的運動損失,使網絡能夠迭代地優化精確的相機位姿。我們對被標記為動態的像素對應的高斯分布進行懲罰,并基于單目深度應用額外的渲染損失,以優化場景細節。最后,我們利用多視圖一致性合成靜態場景。
03 實驗結果
A.實驗細節與指標
數據集和實現細節
我們在三個來自真實世界的公開數據集上進行了評估:TUMRGB-D、AirDOS-Shibuya和BONNRGB-D,這些數據集均捕捉了真實的室內環境。
我們在一臺配備單個RTX3090TiGPU的臺式機上進行了SLAM實驗。我們展示了針對實時應用設計的多進程實現的結果。與3DGS框架一致,時間關鍵的光柵化和梯度計算均使用CUDA實現。
指標和基線方法
為評估相機跟蹤精度,我們報告關鍵幀絕對軌跡誤差(ATE)的均方根誤差(RMSE)。對于運行時性能和網絡迭代速度,我們分別測量每秒幀數(FPS)和毫秒(ms)。GPU使用情況以兆字節(MB)為單位進行評估。我們將我們的Dy3DGS-SLAM方法與傳統動態SLAM方法(如ORB-SLAM3、Droid-SLAM、DynaSLAM、DytanVO和ReFusion以及基于 NeRF 的最新 RGB-D 傳感器方法(包括 NICE-SLAM、ESLAM、Co-SLAM和NID-SLAM)進行比較。此外,我們還考慮了基于3DGS的SplaTAM。
B.在TUM和BonnRGB-D上的跟蹤評估。
跟蹤
如表II所示,我們展示了來自TUM數據集的三個高度動態序列、一個輕度動態序列和兩個靜態序列的結果。
得益于我們提出的動態掩碼融合方法,我們的系統在跟蹤性能方面優于基于RGB-D的方法,甚至可與傳統的SLAM方法相媲美。此外,我們在更復雜且更具挑戰性的BONN數據集上評估了跟蹤性能,如表I所示。即使在這些更復雜和大規模的場景中,我們的方法也取得了卓越的性能。我們的方法優于所有其他方法,NID-SLAM是唯一一個結果接近我們的方法。此外,我們的方法在性能上優于傳統方法。這表明我們的動態掩碼融合能夠有效地去除動態物體并增強跟蹤過程。
建圖
為了全面評估我們所提出系統在動態場景中的性能,我們分析了從定性角度來看結果。我們將渲染的圖像與從生成的高斯圖中獲得的真實姿態進行比較,使用與其他方法相同的視角。選擇了四個具有挑戰性的序列:來自波恩數據集的人群和人員跟蹤,以及來自TUMRGBD數據集的f3walkxyzval和f3walkstatic。如圖2所示,我們的方法在幾何和紋理細節方面顯示出顯著優勢,尤其是在減少偽影方面。值得注意的是,我們的方法基于單目系統,并已在兩個真實世界數據集上得到驗證,證明了僅使用簡單相機即可準確記錄動態場景的能力。這突顯了我們的方法在有效追蹤和重建室內環境方面的潛力,使其成為深度傳感器不可用的應用場景中的寶貴工具。
04 總結
我們提出了Dy3DGS-SLAM,這是首個基于3DGS的單目RGB輸入的動態場景SLAM方法。該方法首先通過光流估計生成動態對象掩碼,將這些掩碼與單目深度估計相結合,創建融合掩碼并恢復尺度,從而準確捕捉動態對象掩碼。為了進一步提高位姿精度,我們基于融合掩碼優化了損失函數,減少了多次迭代帶來的計算成本。此外,為了增強渲染性能,我們應用了額外的光度和深度損失,以消除瞬態干擾偽影并提高幾何精度。實驗結果表明,與基線方法相比,Dy3DGS-SLAM在動態環境中實現了最先進的跟蹤和渲染性能。
-
相機
+關注
關注
4文章
1442瀏覽量
54514 -
RGB
+關注
關注
4文章
804瀏覽量
59652 -
SLAM
+關注
關注
24文章
436瀏覽量
32357
原文標題:Dy3DGS-SLAM:適用于動態環境的3DGS-SLAM,僅需單目RGB
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
一種適用于室內復雜環境的高精度、環境自適應性強的定位算法
基于一種適用于惡劣安裝環境的MS6000水情監測系統介紹
一種適用于動態場景的SLAM方法

一種適用于動態場景的多層次地圖構建算法

三維高斯潑濺大規模視覺SLAM系統解析

評論