針對現(xiàn)有VSLAM系統(tǒng)語義表達不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實時多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實驗表明,vSGraphs優(yōu)于當(dāng)前最先進的VSLAM方法,在真實數(shù)據(jù)上平均降低3.38%的軌跡誤差,最大降幅達9.58%。同時,所提出的框架還具有良好的可擴展性,能夠處理大規(guī)模場景。此外,僅通過視覺特征,本框架實現(xiàn)的語義實體檢測精度即可媲美基于激光雷達的精密框架,表現(xiàn)出優(yōu)秀的環(huán)境驅(qū)動型語義感知能力。
? 文章:
vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding
? 作者:
Ali Tourani, Saad Ejaz, Hriday Bavle, David Morilla-Cabello, Jose Luis Sanchez-Lopez, Holger Voos
? 論文鏈接:
https://arxiv.org/abs/2503.01783
? 編譯:
INDEMIND
01本文核心內(nèi)容
在SLAM的研究背景下,強大的環(huán)境理解作為機器人情境感知的核心基礎(chǔ),高度依賴傳感器數(shù)據(jù)的質(zhì)量和類型。雖然在SLAM中已采用了各種傳感模式(例如激光雷達和相機),但視覺傳感器提供了一種經(jīng)濟高效的解決方案,以確保豐富的地圖重建,形成了VSLAM專門類別。在視覺傳感器中,RGB-D相機提供了視覺和深度信息的豐富融合。這類傳感器解決了單目相機和激光雷達的局限性,生成密集的點云,以提供詳細的環(huán)境元素的空間信息、精確檢測、定位和建圖。為了增強VSLAM的能力,計算機視覺技術(shù)被整合進來,從語義場景理解算法到引入像ArUco標記這樣的人工地標。
除了利用視覺和深度數(shù)據(jù)豐富地圖之外,還可以采用各種方法將數(shù)據(jù)組織成易于理解的結(jié)構(gòu)。其中,場景圖是結(jié)構(gòu)化的表示形式,用于描述場景中的對象及其關(guān)系。通過將場景圖與VSLAM相結(jié)合,可以實現(xiàn)對環(huán)境的更高級理解,包括對象識別、關(guān)系推理和場景分類。這種結(jié)合不僅提高了地圖的質(zhì)量,還增強了機器人在復(fù)雜環(huán)境中的導(dǎo)航和交互能力。掃描環(huán)境記錄了“物體”的存在、其屬性以及相互關(guān)系。它們?yōu)閳鼍袄斫馓峁┝烁邔哟蔚某橄螅煞謱樱椿趫D的)環(huán)境表示,概述了觀察到的物體之間的空間關(guān)聯(lián)。雖然有的方法側(cè)重于為可靠的環(huán)境解釋量身定制幾何和語義信息,但像S-Graphs這樣的其他工作則通過將場景圖直接納入SLAM來突破界限。S-Graphs在統(tǒng)一的優(yōu)化系統(tǒng)中使用激光雷達里程計和平面表面提取,而Hydra則從給定的傳感器數(shù)據(jù)(即相機姿態(tài)和點云)實時構(gòu)建3D場景圖。
受S-Graphs的啟發(fā),本文提出了一種實時VSLAM框架,名為視覺S-Graphs(vS-Graphs),它將場景圖生成直接集成到SLAM過程中。vS-Graphs是一個實時系統(tǒng),利用視覺和深度數(shù)據(jù)來增強地圖重建和相機姿態(tài)估計。它可靠地整合了“建筑組件”(即墻壁和地面表面)、“結(jié)構(gòu)元素”(即門、窗和柱子)以及“物體”(即家具和裝飾品)的信息,從而實現(xiàn)更精確的場景理解和地圖構(gòu)建。vS-Graphs將檢測到的房間和走廊及其關(guān)聯(lián)關(guān)系整合到重建的地圖中,以獲得更精確和結(jié)構(gòu)化的環(huán)境表示。因此,它利用檢測到的建筑組件作為較低層級的、由環(huán)境驅(qū)動的語義實體來識別潛在的結(jié)構(gòu)元素,從而通過施加額外的語義約束來提高VSLAM系統(tǒng)的精度。最終,vS-Graphs生成具有分層優(yōu)化能力的可理解的3D場景圖,將底層SLAM的機器人姿態(tài)與檢測到的實體相匹配,如圖1所示。它還可以利用(如果存在的話)基準標記,將元數(shù)據(jù)添加到檢測到的結(jié)構(gòu)元素中。
本文的貢獻可概括為:
? 一種實時多線程的VSLAM框架,在重建地圖的同時生成分層可優(yōu)化的3D場景圖。
? 一種基于視覺的識別和繪制建筑組件(即墻壁和地面表面)的方法,豐富了地圖內(nèi)容并減少了軌跡誤差。
? 一種從局部建筑組件中提取高級結(jié)構(gòu)元素(例如房間和走廊)的解決方案,以提高場景理解能力。
02方法架構(gòu)
在ORB-SLAM3的基礎(chǔ)上,vS-Graphs對其核心模塊進行了重大修改,并添加了新的線程以實現(xiàn)穩(wěn)健的場景分析和重建。如圖2所示的系統(tǒng)架構(gòu)詳細說明了各個線程、組件及其相互連接。當(dāng)前版本支持RGB-D輸入,利用深度數(shù)據(jù)實現(xiàn)穩(wěn)健的場景理解。其核心貢獻在于無縫集成兩個新穎的線程:“建筑組件識別”和“結(jié)構(gòu)元素識別”。這兩個線程在vS-Graphs中緊密集成,由其他線程觸發(fā),以豐富重建的地圖并實現(xiàn)最佳性能。
在核心部分,RGB-D數(shù)據(jù)實時處理,提供視覺和深度信息。同時,“基準標記檢測”(本研究中使用ArUco庫)獨立運行于輸入幀上,檢測潛在的標記,并將其唯一標識符和姿態(tài)存儲在地圖管理器Atlas中。在“跟蹤”線程中,從連續(xù)幀中提取并跟蹤視覺特征。在此線程中,姿態(tài)信息要么被初始化,要么被優(yōu)化。根據(jù)地圖重建階段,創(chuàng)建包含跨幀跟蹤特征的3D地圖。最后,關(guān)鍵幀選擇這一關(guān)鍵步驟在特征提取之后通過分析視覺數(shù)據(jù)來執(zhí)行。這些關(guān)鍵幀包含3D地圖點、點云以及可能檢測到的基準標記,為后續(xù)處理奠定基礎(chǔ)。關(guān)鍵幀隨后被發(fā)送到“局部映射”線程進行地圖整合和優(yōu)化,剔除定位不準確的關(guān)鍵幀以提高精度。同時,“建筑組件識別”線程通過處理關(guān)鍵幀級別的點云來識別和定位墻壁和地面表面。“結(jié)構(gòu)元素識別”線程則以固定的時間間隔運行,從活動地圖中提取更高層次的實體,包括房間和走廊。最終,由于“閉環(huán)檢測”,如果當(dāng)前位置已被重新訪問,系統(tǒng)會校正或合并地圖,并在檢測到閉環(huán)時觸發(fā)“全局束調(diào)整”以優(yōu)化地圖。
03實驗結(jié)果
1. 評估標準
評估是在配備英特爾i9-11950H處理器(2.60GHz)、4GBNVIDIAT600移動GPU和32GB內(nèi)存的系統(tǒng)上進行。vS-Graphs通過標準基準測試(真實和逼真)以及內(nèi)部專有數(shù)據(jù)集進行了評估。內(nèi)部數(shù)據(jù)是使用一種名為AutoSense的定制手持/機器人可安裝設(shè)備收集的,該設(shè)備可同時記錄RGB-D視頻和激光雷達點云。收集的AutoSense數(shù)據(jù)集包含各種真實世界室內(nèi)環(huán)境的序列,其建筑布局各不相同,如圖4所示。在一些房間中戰(zhàn)略性地放置了ArUco標準標記,以增強語義信息(即房間標簽)。此外,數(shù)據(jù)集中的地面實況數(shù)據(jù)是通過S-Graphs生成的可靠激光雷達姿態(tài)和點云獲得的。由于篇幅限制,完整的評估結(jié)果和圖表可在https://snt-arg.github.io/vsgraphs-results/查看。
2. 軌跡估計與建圖性能
為了展示vS-Graphs的軌跡估計精度,將其與ORBSLAM3(基準)、ElasticFusion以及BADSLAM進行了比較,因為它們在視覺同步定位與建圖(VSLAM)領(lǐng)域具有較強的魯棒性和廣泛的應(yīng)用。由于標記依賴型和神經(jīng)場SLAM方法使用外部姿態(tài)約束并需要特征標記來整合語義實體,這限制了它們在無標記數(shù)據(jù)實例中的適用性,因此未將其納入評估。此外,神經(jīng)RGB-D方法依賴于其學(xué)習(xí)到的場景先驗知識和隱式表示,與所提出的映射策略不同。表1展示了評估結(jié)果,每個系統(tǒng)在數(shù)據(jù)集實例上進行了八次運行評估,性能通過絕對軌跡誤差(ATE)以米為單位進行衡量。表1中的破折號表示由于跟蹤失敗而無法獲取的數(shù)據(jù)。
根據(jù)評估結(jié)果,vS-Graphs一直保持著最先進的性能,在幾乎所有情況下都取得了最佳或次佳的結(jié)果。這種卓越的性能在較長的軌跡中尤為明顯,真實世界的序列源自于整合從精確定位的建筑組件和結(jié)構(gòu)元素中得出的約束條件。雖然納入這些實體能夠增強軌跡估計,但對其不準確的映射和定位可能會對結(jié)果產(chǎn)生負面影響。這種情況主要與快速的相機運動(序列deer-gr)和有噪聲的點云數(shù)據(jù)(序列office1-7)有關(guān)。平均而言,vS-Graphs在所有序列中比基準方法提高了3.38%。此外,通過將重建地圖的精度與AutoSense的真實數(shù)據(jù)進行對比分析發(fā)現(xiàn),vS-Graphs在均方根誤差(RMSE)方面比ORB-SLAM3表現(xiàn)得更為穩(wěn)健。如圖5所示,vS-Graphs的中位RMSE始終更低,表明其整體映射精度更高。盡管vS-Graphs生成的地圖平均點數(shù)比基準方法少約10.15%,但它仍實現(xiàn)了更優(yōu)的映射精度,這得益于其環(huán)境驅(qū)動的約束條件,使得重建更加連貫。
3. 場景理解性能
本節(jié)評估了vSGraphs在語義場景理解方面的性能,能夠準確檢測出解讀環(huán)境布局所必需的關(guān)鍵實體。為了對這一能力進行基準測試,使用了AutoSense數(shù)據(jù)集中包含多個房間的序列,因為它們提供了基于LiDAR數(shù)據(jù)的真實標注。表2對vS-Graphs與兩種最先進的方法進行了定量比較:Hydra和S-Graphs。盡管S-Graphs受益于LiDAR點云的幾何精度,但Hydra被配置為使用視覺點云,以確保與我們純視覺的方法進行公平比較。實驗結(jié)果表明,盡管vSGraphs僅依賴視覺輸入,但在檢測建筑構(gòu)件和結(jié)構(gòu)元素方面,其準確率與基于LiDAR的方法相當(dāng)。這突顯了其視覺特征處理和場景圖生成在高精度理解環(huán)境方面的有效性。需要注意的是,Hydra并未直接提供“墻”實體,因此Hydra的性能其評估基于正確“房間”元素的計數(shù)和識別。此外,當(dāng)前vS-Graphs的實現(xiàn)不包含“樓層”實體,因此在分析中予以舍棄。圖6對vS-Graphs、S-Graphs和Hydra在兩個數(shù)據(jù)集實例中生成的重建場景圖進行了定性比較。
4. 運行時分析
vS-Graphs實現(xiàn)了實時性能,平均處理速率為每秒22±3幀(FPS),超過了實時操作所需的20FPS閾值。這是通過多線程架構(gòu)實現(xiàn)的,如圖7所示。“跟蹤”線程在幀級別處理視覺特征,而“局部建圖”線程則同時對物體進行建圖并優(yōu)化其位置。“構(gòu)建組件識別”線程在關(guān)鍵幀級別并行運行,從在線全景分割中識別潛在的墻壁和地面表面。“結(jié)構(gòu)元素識別”線程運行頻率較低且周期固定(每兩秒一次),用于推斷地圖中的房間和走廊。與在相同硬件和數(shù)據(jù)集上ORB-SLAM3的29±3FPS相比,vS-Graphs略微降低的幀率是其豐富語義場景理解能力的合理權(quán)衡。
04總結(jié)
本文介紹了vS-Graphs,這是一種實時的VSLAM框架,它利用可優(yōu)化的分層3D場景圖來重建機器人操作環(huán)境。為實現(xiàn)這一目標,該框架檢測建筑組件(如墻壁和地面),從中推斷出結(jié)構(gòu)元素(如房間和走廊),并將它們?nèi)空系椒謱颖硎局小R虼耍送ㄟ^整合這些有意義的實體來增強地圖重建外,vS-Graphs還提供了高級環(huán)境驅(qū)動語義對象之間空間關(guān)系的結(jié)構(gòu)化和靈活表示。使用標準和內(nèi)部的室內(nèi)數(shù)據(jù)集進行的實驗結(jié)果表明,與基線和最先進的VSLAM方法相比,所提出的框架在真實世界收集的數(shù)據(jù)集實例中,將軌跡誤差降低了高達9.58%,從而實現(xiàn)了更優(yōu)的軌跡估計和建圖性能。其他評估表明,vS-Graphs處理的視覺特征能夠有效地識別描述環(huán)境布局的語義實體,其準確性可與精確的激光雷達方法相媲美。未來的工作包括整合更多的建筑組件(例如天花板、窗戶和門道)以及結(jié)構(gòu)元素(例如地板),以豐富重建的地圖,同時擴展對不規(guī)則房間布局(例如非矩形空間)和非線性墻壁(例如曲面)的檢測支持。
-
機器人
+關(guān)注
關(guān)注
213文章
29463瀏覽量
211520 -
視覺傳感器
+關(guān)注
關(guān)注
3文章
261瀏覽量
23213 -
激光雷達
+關(guān)注
關(guān)注
971文章
4189瀏覽量
191892 -
VSLAM
+關(guān)注
關(guān)注
0文章
25瀏覽量
4479
原文標題:語義豐富度超越現(xiàn)有VSLAM、精度媲美激光雷達!最新實時多線程VSLAM!
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
RT-Thread嵌入式實時多線程操作系統(tǒng)介紹
基于USB和多線程的實時數(shù)據(jù)采集系統(tǒng)
NP多線程防火墻的設(shè)計與實現(xiàn)
QNX環(huán)境下多線程編程
多線程在VC++串口通信程序中的應(yīng)用
多線程技術(shù)在電能質(zhì)量實時監(jiān)控系統(tǒng)中的應(yīng)用
基于多線程的雷達數(shù)據(jù)實時處理系統(tǒng)

一種支持同時多線程的VLIW DSP架構(gòu)
多線程細節(jié)問題學(xué)習(xí)筆記

mfc多線程編程實例及代碼,mfc多線程間通信介紹

評論