女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于直接2D-3D匹配的定位pipeline有效地擴展主動搜索匹配

新機器視覺 ? 來源:IROS 2021 ? 作者:IROS 2021 ? 2022-07-06 10:58 ? 次閱讀

作者:Zhuo Song, Chuting Wang2, Yuqian Liu3, Shuhan Shen

一、 引言

估計圖像相對于 3D 場景模型的 6-DOF相機位姿是近年來許多計算機視覺和機器人任務中的基本問題,如增強現實、機器人導航、自動駕駛等。在 3D 重建、深度學習云計算、無線通信等領域,單目視覺定位技術取得了長足的進步,并開展了一些實際應用。視覺定位基本上可以分為三類,稱為直接 2D-3D 匹配方法、基于圖像檢索的方法和基于學習的回歸方法。在這些方法中,直接2D-3D匹配方法由于其對GPU的依賴少、計算復雜度低等優點,已成為許多實際應用的首選方法。 對于直接 2D-3D 匹配方法,預先構建的 3D 場景模型中的每個 3D 點都與相應的圖像描述符相關聯。然后,對于查詢圖像中的每個 2D 特征,在包含所有 3D 點描述符的特征空間中,通過找到其最近鄰來搜索其對應的 3D 模型點。為了加速搜索,Active Search [1] 通過在詞匯樹中應用最近鄰搜索來執行 2D 到 3D 匹配。然而,由于視覺詞匯引起的量化偽像,如果將圖像特征及其對應的 3D 點分配給不同的詞,則 2D-3D 匹配將丟失,這將降低內點率,進而導致定位精度。為了恢復這種丟失的匹配,從 2D 到 3D 匹配開始,Active Search [1] 利用匹配點的 3D 位置,并通過同一詞匯樹中的粗略詞匯將其最近的 3D 點作為 3D 到 2D 搜索的候選者。然而,由于空間接近并不一定意味著兩個 3D 點的共可見性,因此在查詢圖像中可以看到的正確候選點的數量是有限的。此外,由于錯誤的 2D-to-3D 匹配發現了不正確的 3D 候選,以及 3D-to-2D 搜索的高誤報匹配率,因此在 Active Search 中應用了嚴格的比率測試閾值,導致拒絕正確的 3D-to-2D 搜索。2D 輕松匹配。因此,在不斷變化的條件下(晝夜、天氣變化、季節變化),真實內點率會很低,這將導致定位失敗。 在本文中,基于主動搜索 [1] 發現的初始 2D-3D 匹配,我們提出了兩種簡單有效的機制,稱為基于可見性和基于空間的召回步驟,以恢復由量化偽像引起的丟失匹配?;诳梢娦缘恼倩乩脕碜猿跏计ヅ浜?SFM 模型的可見性信息來為查詢圖像找到最佳的共可見數據庫圖像?;诳臻g的召回進一步考慮了特征空間布局,以找到另一個與查詢圖像具有相似特征分布的數據庫圖像。然后將這兩個數據庫圖像中的可見模型點作為粗詞匯中的 3D-to-2D 匹配的候選點,以召回更多匹配。由于這兩種召回機制,使得我們專注于更可能在查詢圖像中可見的場景點。因此,可以應用寬松的比率測試閾值,用來恢復已被主動搜索中使用嚴格閾值導致拒絕的正確匹配。本文的主要貢獻可歸納如下:

我們提出了一種改進的基于直接2D-3D匹配的定位 pipeline,可以以簡單有效的方式有效地擴展主動搜索的初始匹配。

在我們的pipeline中,所提出的基于可見性和基于空間的召回機制,可以充分利用初始匹配和詞匯樹結構來恢復由量化偽像引起的丟失匹配。

與SOTA的直接 2D-3D 匹配方法相比,所提出的方法在benchmarks上取得了更好的結果,而不會增加太多計算時間,并且適用于手工的特征和基于學習的特征。

fc534bfc-e98f-11ec-ba43-dac502259ad0.png

圖1. 本文提出方法的 pipeline

二、相關工作

在本節中,我們簡要回顧了視覺定位的相關工作,并將它們分為直接 2D-3D 匹配方法、基于圖像檢索的方法和基于學習的回歸方法。

2.1 直接 2D-3D 匹配方法

通過直接比較從查詢圖像中提取的特征描述符與 SFM 模型 [2] 中的 3D 點來獲得 2D-3D 匹配,然后基于 Perspective-n-Point (PnP) 算法 ,對這些 2D-3D 匹配使用 RANSAC 算法估計相機位姿。經典的直接匹配方法,例如基于近似樹的搜索 ,在中小型問題上提供了出色的匹配結果。然而,在非常大和密集的描述符集合中,搜索得開銷變得非常大。為此,李等人,基于場景點的共可見性,采用一種優先 3D 到 2D 的匹配方案,將 3D 點與查詢圖像進行比較。盡管比直接基于樹的 2D 到 3D 匹配要快得多,但由于 3D 到 2D 搜索的高誤報率,它們的方法還沒有那么有效。薩特勒等人 [7] 表明 2D 到 3D 匹配為改進基于樹的方法提供了相當大的潛力。在[7]的基礎上,他們進一步結合了來自詞匯樹的不同數量視覺詞匯中的2Dto-3D和3D-to-2D匹配,僅使用局部特征實現了最先進的結果,同時具有效率和有效性[1 ]。程等人。針對二進制特征表征,[8] 提出了一種Cascaded Parallel filtering(CPF) 的方法,該方法可以以節省內存的方式實現具有競爭力的定位精度。此外,一些方法在定位過程中使用附加信息來提高定位精度。鑒于有關重力方向和相機高度的知識,城市規模定位(CSL)[9] 采用異常值拒絕策略,用來拒絕不能成為最佳相機位姿的一部分對應關系。與 CSL 類似,基于語義匹配一致性 (SMC) 的定位 [10] ,使用基于場景語義的軟異常值拒絕方法,該方法在環境變化劇烈的數據集上具有顯著改進。

2.2 基于圖像檢索的方法

早期將視覺定位視為地點識別問題。他們使用最相似的檢索圖像的位姿,或前 N 個檢索圖像的融合位姿,來近似查詢圖像的位姿 [11]-[15]。其中,DenseVLAD[14] 和NetVLAD[15] 是該類型的代表工作,其中DenseVLAD聚合了密集提取的 SIFT [16] 描述符,而NetVLAD使用學習特征。它們都可以抵抗晝夜變化,并且在大規模上運行良好。最近,大多數基于圖像檢索的方法,首先執行圖像檢索步驟,然后進行精細的位姿估計,因此它們也被稱為分層定位 [2,17,18]。由于某些檢索數據庫圖像可能不正確,Shi 等人 [19] 通過比較查詢圖像和檢索圖像之間的語義一致性,為每個檢索圖像賦予采樣權重,并執行加權采樣 RANSAC-loop,然后執行標準的 PnP 求解器。薩林等人 [20] 提出了一種基于單片 CNN 的分層方法,該方法同時預測局部特征和全局描述符,以實現準確的 6-DOF 定位。

2.3 基于學習的回歸方法

隨著深度學習的快速發展,基于學習的回歸方法在過去幾年中受到了廣泛的關注。這類方法使用端到端的訓練和推理來直接獲取相機位姿。通常通過訓練多層感知機來過濾異常值 [21, 22] ,或者訓練卷積神經網絡來實現直接回歸得到 6-DOF 相機位姿[23]-[26] 。盡管基于學習的方法發展迅速,但這些方法仍然存在一些明顯的局限性。例如,相比準確的位姿估計,位姿回歸與通過圖像檢索得到的位姿更相似。因此,其性能在很大程度上取決于場景中的圖像數據集的分布 [27]。除了通過 CNN 直接回歸相機位姿外,近年來,基于學習的局部特征和基于學習的特征匹配 [28]-[31] 也被廣泛用于提高定位性能和魯棒性。

三、召回直接匹配

我們方法的流程如圖1所示。包括四個主要步驟,包括初始匹配、基于可見性的召回、基于空間的召回和最終姿勢計算。在我們的pipeline 中,首先使用標準的直接搜索方法,找到初始的 2D-3D 匹配。然后,使用基于可見性和基于空間的召回,在由這些匹配投票的兩個圖像數據集中找到 3D 候選。然后,候選者用于 3D 到 2D 搜索,以恢復最初由于量化偽像而丟失的匹配。一旦找到一定數量的匹配,我們將初始匹配和召回匹配結合在一起,并使用 RANSAC PnP 來估計相機位姿。每個步驟的詳細信息將在以下小節中描述。

3.1 初始匹配

對于視覺定位問題,首先使用 Structure-from-Motion (SFM) 算法,離線構建出場景的 3D 模型 [32, 33]。在這個 3D 模型中,每個 3D 點都與從相應圖像數據集中提取的一組描述符(例如 SIFT [16])相關聯。同樣在離線階段,為了建立這些描述符的索引,首先使用(近似)k-means聚類訓練一個通用或特定的視覺詞匯。然后,通過最近鄰搜索,將每個3D點的描述符分配給它們最接近的視覺詞。為了減少內存消耗并提高效率,對于由給定 3D 點激活的每個視覺詞,計算分配給該詞的所有描述符的平均值,我們通過它來表示 3D 點。在在線階段,對于給定的查詢圖像,描述符被提取并分配給它們最接近的視覺詞。然后,從在每個視覺詞中找到的 2D-to-3D 匹配開始,我們按照 [1] 通過利用匹配點附近的 3D 模型點來獲得一些 3D-to-2D 匹配,并將這些 2D-to-3D 和3D-to-2D 匹配匯聚在一起。之后,最大的匹配子集,表示為Mcluster,是通過對所有匹配的共可見進行聚類獲得的,然后在Mcluster上應用 RANSAC PnP 以獲得我們 pipeline 中的初始匹配Minitial。但是,由于 3D-to-2D 搜索的 3D 匹配點數量有限,以及比率測試的嚴格閾值,Minitial中的匹配可能很少。因此,在不斷變化的條件下(晝夜、天氣變化、季節變化),真實的內點率可能非常低,這將導致定位失敗。在我們的 pipeline 中,我們使用Minitial作為初始匹配,并進行后續的召回操作,以找到丟失的匹配,同時增加內點率。

3.2 基于可見性的召回

為了從Minitial中恢復更多匹配,我們使用Minitial和 SFM 模型的可見性信息,來召回丟失的 2D-3D 匹配。由于此過程完全使用 3D 點的可見性作為尋找匹配的線索,我們將此步驟稱為基于可見性的召回 (VBR)。 令Pinitial為Minitial中所有 3D 點的集合。顯然,對于每個 3D 點 p∈Pinitial,通常在與 p 類似的區域中有許多 3D 模型點,尤其是在紋理豐富的區域。然而,由于查詢圖像與場景點之間未知的遮擋關系,p 的一些甚至很多附近的模型點不太可能在查詢圖像中可見。因此,為了在該區域獲得合理的 3D 點,我們不再像 Active Search [1] 那樣直接尋找Pinitial周圍的最近鄰,而是根據 3D 點與圖像數據集的共可見關系進行選擇,因為共可見性信息已存儲在 SFM 模型中。因此,我們打算尋找可以在P~initial~中看到盡可能多的點的圖像數據集,并可以認為該圖像數據集與查詢圖像具有最大的相似性。

fc8c0ee2-e98f-11ec-ba43-dac502259ad0.png

圖 2. VBR 結果的兩個例子。在(a)和(b)中,左邊是查詢圖像,右邊是 VBR 選擇的圖像數據集,紅線是初始匹配,綠線是 通過 VBR 得到的召回匹配。 更具體地說,我們首先檢查Pinitial和數據庫圖像之間的可見性關系。即,使用來自 SFM 模型的可見性信息,對可以觀察到Pinitial中每個 3D 點的每個數據集圖像進行投票。然后,投票數最高的數據集圖像,被認為是Pinitial的最佳可見圖像,表示為IVBR。之后,我們從 SFM 模型中收集IVBR的所有可見模型點,記為 PVBR,并使用類似于 [6] 的思想對PVBR中的所有 3D 點進行優先級排序。其中,在所有數據集圖像中可見次數較多的點,具有更高的優先級,表明它們更有可能再次被查詢圖像可見。然后,我們在詞匯樹的第 2 層,對來自PVBR的已排序 3D 點,逐個執行一個優先的 3D-to-2D 匹配方案,如 [1],以獲得新的匹配MVBR??紤]到計算效率的問題,當MVBR中的匹配數達到某個閾值NR(本文中NR= 300)時,我們停止 3D-to-2D 搜索。這里,MVBR是我們基于可見性的召回過程D得到的匹配結果,如圖 2 所示。

3.3 基于空間的召回

在基于可見性的召回期間,會添加一組新匹配,但這些匹配存在一些限制。由于IVBR的選擇僅取決于初始 3D 點Pinitial的可見性,當集合Pinitial對應的初始 2D 特征在查詢圖像中數量較少或分布不佳時,這些點投票的圖像數據集IVBR可能不完全表征查詢圖像中包含的場景。因此,可能并未找到查詢圖像中所有可見的 3D 點。基于這一觀察,我們進一步提出了一種基于圖像特征點分布特征的召回機制。由于這個過程主要基于特征的空間分布,我們稱之為基于空間的召回(SBR)。 為了找到與查詢圖像具有相似分布特征的圖像,我們需要比較數據集圖像和查詢圖像之間特征分布的相似性。請注意,我們已經有了初始匹配Minitial,它描述了查詢圖像和數據集圖像之間的局部特征對應關系,因此,我們可以使用這些關系直接比較空間相似度。為此,我們將前 10 個候選圖像保留在前一個 VBR 步驟的投票結果中,并評估查詢圖像與每個候選圖像之間的特征空間相似性。直觀上,對于一對查詢圖像和候選圖像,如果它們的匹配點在各自圖像上具有相似的圖像坐標,我們認為它們具有相似的特征分布,這意味著它們的位姿可能比較接近。為了有效地評估特征空間相似度,我們首先將查詢圖像I~q~和候選圖像I~c~劃分為圖像平面中 m×n 大小相等的 bins(本文中 m 和 n 均設置為 3),如圖 3(a) 所示。然后對于每對對應的 bins,并且分別來自I~q~和I~c~,和之間 (i= 1...m,j= 1...n)的相似性,表示為,如果和包含至少一個匹配特征或不包含特征,則將其設置為 1,否則設置為 0。當這對 bin 不包含任何特征時設置為 1 ,是因為我們認為沒有特征比位于非對應 bins 上的匹配更好。最后,I~q~和I~c~之間的相似度得分,由下式計算出:唯一的特殊情況是,當所有 bins 對都不包含匹配項時,將設置為 0。因為在這種情況下,所有的非零值都來自沒有特征的空 bins。因此,該候選圖像不是我們所期望的。查詢圖像和三個候選圖像的示例,以及它們的相似度得分,如圖 3 所示。 依次對所有候選圖像進行評分后,相似度得分最高的圖像將作為 SBR 找到的最佳數據集圖像,記為ISBR。如果有多個得分高的數據集圖像,我們選擇與查詢圖像初始匹配最多的一個作為ISBR。然后和 VBR 一樣,收集ISBR的所有可見 SFM 模型點,進行優先的 3D-to-2D 匹配,得到新的匹配MSBR,這是我們基于空間召回過程的丟失匹配的查找結果。

fcba9712-e98f-11ec-ba43-dac502259ad0.png

(a) 查詢圖像(左)和選擇的數據集圖像 *I~SBR~*(右),SBR 具有最高相似度得分()。

fcf670de-e98f-11ec-ba43-dac502259ad0.png

圖 3. VBR 結果示例。在 (a) 中,紅線是初始匹配,綠線是 SBR 召回的匹配。在 (a)-(c) 中,綠色和紅色框分別表示和 的 bin 區域。

3.4 最終位姿的計算

最后,我們將基于可見性和基于空間的召回結果MVBR和MSBR,與初始匹配Minitial相結合,然后再次執行 RANSAC PnP 以獲得最終位姿。請注意,在前面的 VBR 和 SBR 步驟中,我們使用檢索圖像中的所有 3D 模型點,且有Pinitial的 3D 模型點。這樣做的原因如下,一些初始匹配Minitial可能會受到量化偽像的嚴重影響,因此這些匹配可能是錯誤的。通過在粗略的視覺詞匯表中重新匹配Minitial中的這些點,這些 3D 點可能會因此找到正確的對應關系。

四、實驗

4.1 數據集和評估指標

數據集和評估指標我們在兩個長期視覺定位 benchmark 數據集 [34]RobotCarSeasons 和AachenDay-Night 上評估我們提出的方法。在RobotCar Seasons數據集中,所有圖像都是用安裝在汽車上的攝像頭記錄的,涵蓋了廣泛的條件變化,例如:不同的天氣,不同的季節,晝夜。在Aachen DayNight數據集 [34] 中,數據庫圖像是在白天使用手持相機拍攝的,查詢圖像是在白天和夜間使用手機拍攝的。對于這兩個數據集,我們遵循 [34] 中使用的評估指標,并報告定位在距離地面實況相機姿勢一定距離(米)和方向角(度)內的查詢圖像的百分比。在基準測試中,使用了三個不同級別的定位精度,即高精度(0.25m,21°)、中精度(0.5m,51°)和粗精度(5m,101°)。

4.2 實施細節

對于每個數據集,我們使用FLANN 庫 [36] ,在從所有數據集圖像中提取的所有uprightRootSIFT[16, 35] 特征上,訓練一個特定的 100k 視覺詞匯表。在初始匹配步驟中,由于每個數據集使用場景特定的詞匯樹,我們使用 [1] 中的默認參數,但用于 2D-to-3D/3D-to-2D 比率測試的閾值 r 和閾值 N~t~ 用于提前終止匹配搜索。閾值 N~t~ 主要影響計算效率,在 Active Search [1] 中默認使用 100。在我們的實驗中,為了綜合評估性能,我們將 N~t~ 分別設置為 100、200 和 500。閾值 r 主要影響匹配選擇的嚴格程度,r 越小越嚴格,得到的初始匹配越少。在我們的實驗中,初始匹配中比率測試的閾值 r 在 Aachen 數據集中分別設置為 0.75 和 0.6,在RobotCar數據集中分別設置為 0.85 和 0.6。為RobotCar數據集設置一個相對寬松的閾值 r ,是因為這個場景包含更劇烈的表征變化。請注意,在某些情況下,PnP 求解器在初始匹配步驟中,無法獲得任何內部對應關系,如果發生這種情況,我們將使用Mcluster而不是Minitial來執行后續的調用步驟。在基于空間的召回步驟中,劃分圖像時使用了 3×3 的空間 bins,在不同的數據集上取得了合理的結果。在基于可見性和基于空間的召回步驟中,所有數據集的 3D-to-2D 搜索的比率測試閾值都設置為 0.8,這比初始匹配步驟中的閾值要寬松得多,因為模糊 的3D 模型點的數量在場景的一定范圍內大大減少。最后,我們 pipeline 中使用的 PnP 算法是RansacLib[37, 38] 中重新實現的 RANSAC 部分,重投影誤差閾值設置為 10 像素。所有實驗均在具有 2.40GHz 英特爾 E5-2640 CPU 的服務器上使用單個 CPU 線程運行。

4.3 與 SOTA 的比較

我們與最先進的直接 2D-3D 匹配方法進行了比較,包括 Active Search (AS) V1.1 [1]、Cascaded Parallel filter (CPF) [8]、City-scale Localization (CSL) [9 ] 和語義匹配一致性 (SMC) [10]。請注意,后兩種方法需要相機的一些先驗知識或場景的語義信息。為了全面起見,我們還與兩種廣泛使用的基于圖像檢索的方法進行了比較,包括NetVLAD[15] 和DenseVLAD[14]。 表一展示了RobotCar和 Aachen 數據集上的定量比較結果。結果表明,我們的方法優于其他方法,除了RobotCar數據集中夜間的中等和粗略精度,這其中最好的結果來自 SMC [10]。請注意,SMC 需要有關重力方向的先驗知識,并依賴于微調的神經網絡進行語義分割。對于初始匹配中不同的 N~t~ 設置,結果表明初始匹配越多,最終結果越好,且在夜間的改善更為明顯,尤其是RobotCar中的夜間。然而,更多的初始匹配也意味著更長的計算時間,因此在實際應用中,需要根據計算資源在效果和效率之間進行平衡。

fd269c46-e98f-11ec-ba43-dac502259ad0.png

與原來的Active Search[1]相比,我們的方法在夜景上有更顯著的改進。這是因為光照的變化導致查詢圖像和數據集圖像的特征描述符之間存在較大差異,而這些差異導致 Active Search 從詞匯樹中計算出的正確匹配較少。因此,通過我們的方法召回匹配后,準確率將大大提高。并且,與基于圖像檢索的方法相比,我們的方法在沒有 GPU 的情況下也實現了更高的精度(GPU 一直用于基于圖像檢索的 CNN 圖像檢索中,并加速圖像到圖像的完整特征匹配)。 由于計算效率高是直接 2D-3D 匹配方法的主要優勢,我們還評估了整個pipeline 中基于可見性和基于空間的召回步驟的時間消耗,如表 ii 所示。表 ii 顯示了在RobotCar和Aachen數據集上,我們的方法定位查詢圖像(不包括特征提?。┧ㄙM的平均時間??梢钥闯觯尤肟梢娦曰蚩瘴徽倩乇仍瓉淼腁ctive Search(w/o VBR+SBR)增加約 200-300ms,同時使用VBR和SBR比單獨使用多約 100ms,而不是分別運行它們的時間總和。因為一些 3D 候選點在 VBR 和 SBR 中是重復的,所以對于這些點,我們只執行了一次 3D-to-2D 搜索。

fd77175c-e98f-11ec-ba43-dac502259ad0.png

4.4 消融研究

消融研究用于評估兩個關鍵步驟 VBR 和 SBR 的影響,在我們的方法中,我們基于 RobotCar 和 Aachen 數據集進行了消融研究,如表 iii 所示。 沒有 VBR 和 SBR 的方法(表 iii 中每個數據集的第一行)時,我們的方法與表 i 中的 Active Search v1.1 基本相同,唯一的區別是我們為每個數據集重新訓練了 100k 個單詞的特定視覺詞匯表, 而 Active Search v1.1 使用在來自 Aachen 模型和不相關數據集的圖像上訓練的 100k 詞的通用詞匯表,但它們的性能相似。表 iii 表明,對于這兩個數據集,單獨使用 VBR 或 SBR 都可以大大提高定位精度,使用 SBR 獲得的結果更好,這表明找到與查詢圖像具有相同特征分布的圖像很重要 。此外,同時使用 VBR 和 SBR 步驟可以進一步地提高定位精度。

fda7a912-e98f-11ec-ba43-dac502259ad0.png

4.5 手工制作的 V.S. 基于學習的局部特征

上述實驗均基于 SIFT [16] 特征,但眾所周知,晝夜條件下的視覺定位( 即基于白天 SFM 模型定位夜間圖像 )的成功率很低。為此,近年來提出了幾種基于學習的局部特征。為了使用基于學習的特征評估我們所提出的方法,我們使用最先進的基于學習的局部特征 ASLFeat [30] ,并在 Aachen Day-Night 數據集上對其進行評估。在實驗中,我們首先從所有數據集圖像中提取 ASLFeat 特征,并利用這些特征來訓練特定的視覺詞匯。此外,SFM 模型還使用 HF-Net [20] 提供的工具箱,根據 ASLFeat 特征重新構建。然后我們的全定位 pipeline(N~t~ = 500)被執行,結果如表IV所示。此外,HF-Net(使用基于學習的全局和局部描述符來定位)的結果顯示在表 IV 的底行。將表 IV 中的 ASLFeat 的結果與 SIFT 的相應結果(表 iii 中右下兩列)進行比較,我們可以發現在我們的 pipeline 中,可以使用手工制作和基于學習的特征,并且 ASLFeat 的性能要比SIFT 好得多,更適合夜間條件,但白天不如 SIFT 。我們認為原因是,雖然 ASLFeat 對光照變化的魯棒性比手工制作的特征要強,但它的特征位置精度仍然不如 SIFT。

fde64776-e98f-11ec-ba43-dac502259ad0.png

五、總結

在本文中,我們在 Active Search 的基礎上,提出了一種改進的基于直接 2D-3D 匹配的定位方法 。在我們的 pipeline 中,提出了兩種簡單有效的機制,稱為基于可見性和基于空間的召回步驟,以恢復由量化偽像引起的丟失匹配,從而可以在不增加太多計算時間消耗的情況下,大大提高定位的精度和成功率。具有挑戰性的長期視覺定位 benchmarks 的實驗結果,證明了我們方法的有效性。然而,目前的 pipeline 有兩個限制。首先,我們的方法強烈依賴于初始的匹配結果。如果聚類的初始匹配不包含任何正確的 2D-3D 匹配,我們的方法也會失敗。其次,在基于空間的召回步驟中,由于圖像平面劃分的規則,當查詢和數據集合圖像間有較大的旋轉差異時,我們的方法可能無法正常工作。盡管這種情況在現實實際中很少發生。這兩個限制,我們將在未來的工作中解決。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29463

    瀏覽量

    211520
  • 無線通信
    +關注

    關注

    58

    文章

    4705

    瀏覽量

    144849
  • 深度學習
    +關注

    關注

    73

    文章

    5554

    瀏覽量

    122469

原文標題:用于大規模視覺定位的直接2D-3D匹配(IROS 2021)

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    什么是伽瑪(γ)匹配

    什么是伽瑪(γ)匹配 伽瑪(γ)匹配實際上是T形匹配的半邊,適合與50Ω同軸電纜連線,是一種很方便的匹配方式。其中d1>
    發表于 10-20 16:01 ?4994次閱讀
    什么是伽瑪(γ)<b class='flag-5'>匹配</b>

    基于D2D通信的最大帶權匹配比例資源分配算法

    針對終端直通(D2D)通信系統中用戶的公平性問題,首先對現有的比例公平原則進行擴展,推導出一個與加權和速率有關的優化問題,然后提出了一個最大帶權匹配比例公平( KMPF)資源分配算法對其進行優化
    發表于 12-03 10:59 ?2次下載

    二維網格的室內匹配定位算法

    快速搜索策略降低匹配定位的計算量,采用網格特征向量的歸一化歐氏距離進行最優網格匹配定位,最終由匹配
    發表于 01-29 11:52 ?0次下載
    二維網格的室內<b class='flag-5'>匹配</b><b class='flag-5'>定位</b>算法

    深度學習:搜索和推薦中的深度匹配問題

    的深度匹配問題,非常solid的綜述,針對里面的一些方法,尤其是feature-based的深度學習方法增加了近期一些相關paper。推薦系統和搜索應該是機器學習乃至深度學習在工業界落地應用最多也最容易
    的頭像 發表于 11-05 09:47 ?4368次閱讀

    阿里研發全新3D AI算法,2D圖片搜出3D模型

    導購等領域的門檻。該研究成果已被AI頂會NeurIPS 2020收錄。 盡管3D打印、VR等應用場景逐漸成熟,但以3D搜索為代表的3D智能技術依舊處于早期研究階段。例如,受限于
    的頭像 發表于 12-04 15:49 ?3845次閱讀

    圖像匹配應用及方法

    圖像匹配 應用: 目標識別、目標跟蹤、超分辨率影像重建、視覺導航、圖像拼接、三維重建、視覺定位、場景深度計算 方法: 基于深度學習的特征點匹配算法、實時匹配算法、
    的頭像 發表于 12-26 11:08 ?7341次閱讀

    深度剖析3D視覺定位技術

    3D視覺定位直接目標是計算當前圖像的照相機位姿,解決該問題的直接方案是建立3D點與2D點之間
    的頭像 發表于 04-01 14:46 ?4588次閱讀
    深度剖析<b class='flag-5'>3D</b>視覺<b class='flag-5'>定位</b>技術

    基于熱核的3D對稱圖形匹配算法及研究

    對稱混淆問題一直是圖形匹配的難點之一,其中,特征點選取、對稱點檢測、初始匹配對最終匹配結果影響很大針對此問題提出了一種基于熱核的3D對稱圖形匹配
    發表于 05-11 11:22 ?17次下載

    基于熱核的3D對稱圖形匹配算法研究

    對稱混淆問題一直是圖形匹配的難點之一,其中,特征點選取、對稱點檢測、初始匹配對最終匹配結果影響很大針對此問題提出了一種基于熱核的3D對稱圖形匹配
    發表于 06-21 14:35 ?9次下載

    如何直接建立2D圖像中的像素和3D點云中的點之間的對應關系

    準確描述和檢測 2D3D 關鍵點對于建立跨圖像和點云的對應關系至關重要。盡管已經提出了大量基于學習的 2D3D 局部特征描述符和檢測器,但目前的研究對
    的頭像 發表于 10-18 09:20 ?9821次閱讀

    一種用于視覺定位2D-3D匹配方法GAM

    提出了一種新的2D-3D匹配方法,幾何輔助匹配(GAM),使用外觀信息和幾何上下文來改進2D-3D特征匹配,可以在保持高精度的同時增強
    的頭像 發表于 02-16 10:18 ?1990次閱讀

    六自由度視覺定位

    基于三維模型的視覺定位通過在查詢圖像和三維模型間建立 2D-3D 對應關系,估計相機六自由度的位姿。傳統的視覺定位方法通常采用人工設計的局部特征,如 SIFT,來實現 2D-3D
    的頭像 發表于 04-20 10:07 ?1360次閱讀

    雙目立體匹配的四個步驟

    的相關性。兩個像素無論是否為同名點,都可以通過匹配代價函數計算匹配代價,代價越小則說明相關性越大,是同名點的概率也越大。 每個像素在搜索同名點之前,往往會指定一個視差搜索范圍
    的頭像 發表于 06-28 16:59 ?1453次閱讀
    雙目立體<b class='flag-5'>匹配</b>的四個步驟

    2D圖像和LiDAR的3D點云之間的配準方法

    建立2D-3D的對應關系首先通過交叉區域檢測,在兩個模態中去除離群區域,然后利用交叉模態潛在空間的最近鄰原則進行2D-3D特征匹配。
    發表于 12-22 11:29 ?3287次閱讀
    <b class='flag-5'>2D</b>圖像和LiDAR的<b class='flag-5'>3D</b>點云之間的配準方法

    英倫科技的15.6寸2D-3D可切換光場裸眼3D顯示屏有哪些特點?

    隨著科技的快速發展,人類對于視覺體驗的追求也在不斷攀升。從平面的2D圖像到立體的3D影像,我們一直在探索如何讓虛擬世界更加逼真。如今,英倫科技憑借其創新實力,推出了一款革命性的顯示設備——15.6寸2D-3D可切換光場裸眼
    的頭像 發表于 05-28 11:17 ?629次閱讀
    英倫科技的15.6寸<b class='flag-5'>2D-3D</b>可切換光場裸眼<b class='flag-5'>3D</b>顯示屏有哪些特點?