女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Aux-Think打破視覺語言導航任務的常規推理范式

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-07-08 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Aux-Think,把推理當作訓練時的助力,而非測試時的負擔,打破視覺語言導航任務的常規推理范式

視覺語言導航(VLN)任務的核心挑戰,是讓機器人在復雜環境中聽懂指令、看懂世界,并果斷行動。我們系統性地引入推理任務,探索其在導航策略學習中的作用,并首次揭示了VLN中的“推理崩塌”現象。研究發現:無論是行動前推理(Pre-Think),還是行動后推理(Post-Think),一旦在測試階段顯式生成推理鏈,反而更容易讓機器人迷失方向。

Aux-Think提出一種更實用的路徑:在訓練階段引入推理任務作為輔助監督,引導模型習得更清晰的決策邏輯;而在測試階段,則徹底省去推理生成,直接進行動作預測。把推理用在該用的地方,模型在任務中反而更穩、更準、更省。Aux-Think不僅有效避免了測試階段的推理幻覺,也為“推理應在何時、如何使用”提供了清晰答案,進一步拓展了數據高效導航模型的能力邊界。

? 論文題目:

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

? 論文鏈接:

https://arxiv.org/abs/2505.11886

?項目主頁:

https://horizonrobotics.github.io/robot_lab/aux-think/

視覺語言導航 (VLN) 的推理策略

在視覺語言導航 (VLN) 任務中,機器人需要根據自然語言指令在復雜環境中做出實時決策。雖然推理在許多任務中已有廣泛應用,但在VLN任務中,推理的作用一直未被充分探討。我們是第一個系統性研究推理策略對VLN任務影響的團隊,發現現有的推理策略 (Pre-Think和Post-Think) 在測試階段反而導致了較差的表現,讓機器人導航失敗。與此不同的是,我們提出的Aux-Think框架通過創新設計有效解決了這一問題。

b1efe980-572d-11f0-baa5-92fbcf53809c.png

Aux-Think優于Pre-Think和Post-Think其它推理策略

b209186a-572d-11f0-baa5-92fbcf53809c.png

Aux-Think在數據效率與成功率之間達到帕累托最優

測試階段推理的挑戰

想象一名司機在開車時不斷分析路況,并頻繁回顧交通規則后才做決策。雖然這有助于理解環境,但當遇到陌生或復雜情況時,這種“思考過度”的方式反而容易因推理偏差而判斷失誤。

在視覺語言導航任務中,推理就像回顧交通規則,決策則對應真實的駕駛操作。推理本意是為了幫助機器人理解任務,但一旦進入訓練中未見過的狀態,思維鏈便可能產生幻覺。尤其是在不熟悉的環境中,過度依賴推理不僅無法提升決策,反而干擾行動、累積誤差,最終導致機器人“誤入歧途”。這種“推理崩塌”現象正是Aux-Think希望解決的關鍵問題。

Aux-Think給出的新答案

為了應對上述問題,我們提出了Aux-Think,一種全新的推理訓練框架。Aux-Think的核心思想是:在訓練階段通過推理指導模型的學習,而在測試階段,機器人直接依賴訓練過程中學到的知識進行決策,不再進行推理生成。具體來說,Aux-Think將推理和行動分開進行:

訓練階段:通過引導模型學習推理任務,幫助其內化推理模式。

測試階段:直接根據訓練中學到的決策知識進行行動預測,不再進行額外的推理生成。

這種設計有效避免了測試階段推理帶來的錯誤和不穩定性,確保機器人能更加專注于執行任務,減少了推理過程中可能引入的負面影響。

b248ed8c-572d-11f0-baa5-92fbcf53809c.png

上圖中展示的是一個導航任務:“穿過房間,走到右側的拱門并停在玻璃桌旁”。三種策略面對相同場景做出了不同反應:Pre-Think模型在行動前試圖推理整條路徑,認為應該“前進75cm”,但忽視了當前觀察并未穿過房間,導致偏離目標;Post-Think模型在執行動作后才分析環境,發現沒有看到拱門,但錯誤已發生,只能繼續試探,繼續偏航;Aux-Think則在訓練時學習推理邏輯,測試時直接基于當前觀察判斷“右轉15度”,準確識別拱門位置,成功完成導航任務。

實驗結果

大量實驗表明,Aux-Think在數據效率與導航表現方面優于當前領先方法。盡管訓練數據較少,Aux-Think仍在多個VLN基準上取得了單目 (Monocular) 方法中的最高成功率。通過僅在訓練階段內化推理能力,Aux-Think有效緩解了測試階段的推理幻覺與錯誤傳播,在動態、長程導航任務中展現出更強的泛化能力與穩定性。

b268d3ea-572d-11f0-baa5-92fbcf53809c.png

R2R-CE上的指標:Aux-Think在視覺語言導航任務的R2R驗證集 (Val-Unseen) 上取得領先的成功率 (SR) ,即使使用的訓練數據更少,也能超越多種現有方法。

b27e199e-572d-11f0-baa5-92fbcf53809c.png

RxR-CE上的指標:RxR比R2R更大、更復雜,Aux-Think在RxR驗證集上依然以更少數據實現更高成功率 (SR) ,展現出優越的泛化能力。

總結與展望

Aux-Think為解決測試階段推理引發的導航問題提供了新的思路。通過在訓練階段引入推理指導,在測試階段去除推理負擔,Aux-Think能夠讓機器人更加專注于任務執行,從而提高其導航穩定性和準確性。這一突破性進展將為機器人在實際應用中的表現奠定更為堅實的基礎,也為具身推理策略提供了重要啟示。

.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29731

    瀏覽量

    212842
  • 導航
    +關注

    關注

    7

    文章

    555

    瀏覽量

    43156

原文標題:開發者說|Aux-Think:為什么測試時推理反而讓機器人「誤入歧途」?

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs在語言理解上表現出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估基準,包含12個數據集,覆蓋三大
    的頭像 發表于 11-23 15:05 ?1500次閱讀
    大型<b class='flag-5'>語言</b>模型的邏輯<b class='flag-5'>推理</b>能力探究

    一種在視覺語言導航任務中提出的新方法,來探索未知環境

    視覺語言導航(vision-language navigation, VLN)任務指的是引導智能體或機器人在真實三維場景中能理解自然語言命令
    的頭像 發表于 03-05 09:38 ?4800次閱讀
    一種在<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導航</b><b class='flag-5'>任務</b>中提出的新方法,來探索未知環境

    各位高手,我想在汽車導航電路板上加一個aux輸出接口

    我想在這個導航上引出一根aux,看網上介紹有好多兄弟對不同機頭改裝,無奈本地無這要的高手師傅。還需要什么具體細節,隨時可以照照片,謝謝各位高手!.導航電路如下:
    發表于 03-04 18:05

    如何打破PCB設計的視覺障礙?

    如何打破PCB設計的視覺障礙?
    發表于 06-15 09:31

    基于計算機視覺和NLP的跨媒體問答與推理

    基于視覺語言的跨媒體問答與推理是人工智能領域的研究熱點其目的是基于給定的視覺內容和相關問題,模型能夠返回正確的答案。隨著深度學習的飛速發展及其在計算杋
    發表于 04-08 10:25 ?8次下載
    基于計算機<b class='flag-5'>視覺</b>和NLP的跨媒體問答與<b class='flag-5'>推理</b>

    視覺問答與對話任務研究綜述

    視覺問答與對話是人工智能領堿的重要硏究任務,是計算機視覺與自然語言處理交叉領域的代表性問題之一。視覺問答與對話
    發表于 04-08 10:33 ?10次下載
    <b class='flag-5'>視覺</b>問答與對話<b class='flag-5'>任務</b>研究綜述

    ACL2021的跨視覺語言模態論文之跨視覺語言模態任務與方法

    來自:復旦DISC 引言 本次分享我們將介紹三篇來自ACL2021的跨視覺語言模態的論文。這三篇文章分別介紹了如何在圖像描述任務中生成契合用戶意圖的圖像描述、端對端的視覺
    的頭像 發表于 10-13 10:48 ?2778次閱讀
    ACL2021的跨<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模態論文之跨<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模態<b class='flag-5'>任務</b>與方法

    用于語言視覺處理的高效 Transformer能在多種語言視覺任務中帶來優異效果

    白皮書《Transformer-LS:用于語言視覺處理的高效 Transformer》中提出了“長-短 Transformer” (Transformer-LS),這是一種高效的 Transformer 架構,用于為語言
    的頭像 發表于 12-28 10:42 ?1972次閱讀

    視覺語言導航領域任務、方法和未來方向的綜述

    視覺語言導航(VLN)是一個新興的研究領域,旨在構建一種可以用自然語言與人類交流并在真實的3D環境中導航的具身代理,與計算機
    的頭像 發表于 09-20 14:30 ?5582次閱讀

    多維度剖析視覺-語言訓練的技術路線

    (如BERT\GPT等)的啟發,視覺-語言預訓練 (Vision-Language Pre-training, VLP) 逐漸受到關注,成為如今 VL 任務的核心訓練范式。本文對 VL
    的頭像 發表于 02-23 11:15 ?1324次閱讀

    深度探討VLMs距離視覺演繹推理還有多遠?

    通用大型語言模型(LLM)推理基準:研究者們介紹了多種基于文本的推理任務和基準,用于評估LLMs在不同領域(如常識、數學推理、常識
    發表于 03-19 14:32 ?558次閱讀
    深度探討VLMs距離<b class='flag-5'>視覺</b>演繹<b class='flag-5'>推理</b>還有多遠?

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發現VLM可以作為一種無需任何微調或
    的頭像 發表于 11-22 09:42 ?792次閱讀

    NaVILA:加州大學與英偉達聯合發布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了一款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力,為智能機器人的自主導航提供了一種全新的解決方案。
    的頭像 發表于 12-13 10:51 ?682次閱讀

    think-cell:與PowerPoint交換文件

    安裝 think-cell 的同事與客戶也可以打開和編輯文件,而不會注意到有任何不同。think-cell 元素將顯示為常規 PowerPoint 形狀,諸如文本框和 PowerPoint 圖形對象
    的頭像 發表于 01-07 10:11 ?410次閱讀
    <b class='flag-5'>think</b>-cell:與PowerPoint交換文件

    新品| LLM630 Compute Kit,AI 大語言模型推理開發平臺

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強大的AI推理能力,能夠高效執行復雜的視覺(CV)及大語言模型(LLM)任務,滿足各類智能應用場景的需求
    的頭像 發表于 01-17 18:48 ?693次閱讀
    新品| LLM630 Compute Kit,AI 大<b class='flag-5'>語言</b>模型<b class='flag-5'>推理</b>開發平臺