免费AV电影片在线观看,日韩AV无码乱伦,韩国高清无码在线观看

Aux-Think，把推理當作訓練時的助力，而非測試時的負擔，打破視覺語言導航任務的常規推理范式

視覺語言導航(VLN)任務的核心挑戰，是讓機器人在復雜環境中聽懂指令、看懂世界，并果斷行動。我們系統性地引入推理任務，探索其在導航策略學習中的作用，并首次揭示了VLN中的“推理崩塌”現象。研究發現：無論是行動前推理(Pre-Think)，還是行動后推理(Post-Think)，一旦在測試階段顯式生成推理鏈，反而更容易讓機器人迷失方向。

Aux-Think提出一種更實用的路徑：在訓練階段引入推理任務作為輔助監督，引導模型習得更清晰的決策邏輯；而在測試階段，則徹底省去推理生成，直接進行動作預測。把推理用在該用的地方，模型在任務中反而更穩、更準、更省。Aux-Think不僅有效避免了測試階段的推理幻覺，也為“推理應在何時、如何使用”提供了清晰答案，進一步拓展了數據高效導航模型的能力邊界。

? 論文題目：

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

? 論文鏈接：

https://arxiv.org/abs/2505.11886

?項目主頁：

https://horizonrobotics.github.io/robot_lab/aux-think/

視覺語言導航 (VLN) 的推理策略

在視覺語言導航 (VLN) 任務中，機器人需要根據自然語言指令在復雜環境中做出實時決策。雖然推理在許多任務中已有廣泛應用，但在VLN任務中，推理的作用一直未被充分探討。我們是第一個系統性研究推理策略對VLN任務影響的團隊，發現現有的推理策略 (Pre-Think和Post-Think) 在測試階段反而導致了較差的表現，讓機器人導航失敗。與此不同的是，我們提出的Aux-Think框架通過創新設計有效解決了這一問題。

Aux-Think優于Pre-Think和Post-Think其它推理策略

Aux-Think在數據效率與成功率之間達到帕累托最優

測試階段推理的挑戰

想象一名司機在開車時不斷分析路況，并頻繁回顧交通規則后才做決策。雖然這有助于理解環境，但當遇到陌生或復雜情況時，這種“思考過度”的方式反而容易因推理偏差而判斷失誤。

在視覺語言導航任務中，推理就像回顧交通規則，決策則對應真實的駕駛操作。推理本意是為了幫助機器人理解任務，但一旦進入訓練中未見過的狀態，思維鏈便可能產生幻覺。尤其是在不熟悉的環境中，過度依賴推理不僅無法提升決策，反而干擾行動、累積誤差，最終導致機器人“誤入歧途”。這種“推理崩塌”現象正是Aux-Think希望解決的關鍵問題。

Aux-Think給出的新答案

為了應對上述問題，我們提出了Aux-Think，一種全新的推理訓練框架。Aux-Think的核心思想是：在訓練階段通過推理指導模型的學習，而在測試階段，機器人直接依賴訓練過程中學到的知識進行決策，不再進行推理生成。具體來說，Aux-Think將推理和行動分開進行：

訓練階段：通過引導模型學習推理任務，幫助其內化推理模式。

測試階段：直接根據訓練中學到的決策知識進行行動預測，不再進行額外的推理生成。

這種設計有效避免了測試階段推理帶來的錯誤和不穩定性，確保機器人能更加專注于執行任務，減少了推理過程中可能引入的負面影響。

上圖中展示的是一個導航任務：“穿過房間，走到右側的拱門并停在玻璃桌旁”。三種策略面對相同場景做出了不同反應：Pre-Think模型在行動前試圖推理整條路徑，認為應該“前進75cm”，但忽視了當前觀察并未穿過房間，導致偏離目標；Post-Think模型在執行動作后才分析環境，發現沒有看到拱門，但錯誤已發生，只能繼續試探，繼續偏航；Aux-Think則在訓練時學習推理邏輯，測試時直接基于當前觀察判斷“右轉15度”，準確識別拱門位置，成功完成導航任務。

實驗結果

大量實驗表明，Aux-Think在數據效率與導航表現方面優于當前領先方法。盡管訓練數據較少，Aux-Think仍在多個VLN基準上取得了單目 (Monocular) 方法中的最高成功率。通過僅在訓練階段內化推理能力，Aux-Think有效緩解了測試階段的推理幻覺與錯誤傳播，在動態、長程導航任務中展現出更強的泛化能力與穩定性。