女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-10-23 09:40 ? 次閱讀

本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機交互團隊在視覺-語言導航(Vision-and-Language Navigation, VLN)領域的最新工作。該工作構建了 VLN 中首個帶有高質量實體-標志物對齊標注的數據集,并提出實體-標志物對齊的自適應預訓練方法,從而顯著提高了智能體的導航性能。

ICCV 是“計算機視覺三大頂級會議”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行,本屆會議共收到全球 8260 篇論文投稿,2161 篇被接收,接收率為 26.16%,其中 152 篇論文被選為口頭報告展示(Oral Presentation),Oral 接收率僅為 1.8%。

wKgZomU10DKADan6AAHijJ9FR38163.png

論文題目:

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

論文地址:

https://arxiv.org/abs/2308.12587

開源數據集:

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代碼地址:

https://github.com/csir1996/vln-gela

wKgZomU10DKAfgAhAAAl6LOgh3c680.png

引言

視覺-語言導航(Vision-and-Language Navigation, VLN)任務旨在構建一種能夠用自然語言與人類交流并在真實 3D 環境中自主導航的具身智能體。自提出以來,VLN 越來越受到計算機視覺、自然語言處理和機器人等領域的廣泛關注。 如圖 1 所示,將自然語言指令中提過的標志物(物體或者場景)對應到環境中能夠極大的幫助智能體理解環境和指令,由此跨模態對齊是 VLN 中的關鍵步驟。然而,大多數可用的數據集只能提供粗粒度的文本-圖像對齊信號,比如整條指令與整條軌跡的對應或者子指令與子路徑之間的對應,而跨模態對齊監督也都停留在句子級別(sentence-level)。因此,VLN 需要更細粒度(entity-level)的跨模態對齊數據和監督方法以促進智能體更準確地導航。

為解決以上問題,我們提出了一種面向 VLN 的實體-標志物自適應預訓練方法,主要工作與貢獻如下:

1. 我們基于 Room-to-Room(R2R)數據集 [1] 標注實體-標志物對齊,構建了第一個帶有高質量實體-標志物對齊標注的 VLN 數據集,命名為 GEL-R2R;

2. 我們提出一種實體-標志物自適應預訓練 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 數據集顯式監督 VLN 模型學習實體名詞和環境標志物之間的細粒度跨模態對齊;

3. 我們構建的 GELA 模型在兩個 VLN 下游任務上取得了最佳的導航性能,證明了我們數據集和方法的有效性和泛化性。 wKgZomU10DKAHMgwAAy1Xi4UNy4383.png▲圖1. 具身智能體在3D真實環境中的導航示例 wKgZomU10DOARN_dAAAuhh9-KLM163.png

GEL-R2R數據集

為了建立指令中實體短語與其周圍環境中相應標志物之間的對齊,我們在 R2R 數據集的基礎上進行了實體-標志物對齊的人工標注,整個流程包括五個階段:

1. 原始數據準備。我們從 Matterport3D 模擬器中采集每個可導航點的全景圖。為了提高標注的效率和準確性,我們在全景圖中標注下一個動作方向,并根據 FG-R2R 數據集 [2] 將每個全景圖與相應的子指令進行對應;

2. 標注工具開發。我們基于 Label-Studio 開發了一個跨模態標注平臺,如圖 2 所示;

3. 標注指南建立。為確保標注的一致性,我們經過預標注之后建立了四個準則來標準化標注指南:

  • 對齊準則:指令中的實體短語應與全景圖中的標志物準確匹配

  • 自由文本準則:標注自由文本而不是類別

  • 文本共指準則:指代相同標志物的實體短語用相同的標簽標注

  • 唯一標志物準則:對于一個實體短語,在全景圖中只應標注一個對應的標志物

4. 數據標注與修訂;

5. 數據整合與處理。

wKgZomU10DOAbfPKAAh8T1fXP9Q036.png

▲圖2. GEL-R2R數據集標注界面如圖 3 所示,GEL-R2R 數據集共包含:71467 個實體短語,其中訓練集 57788 個,已見環境驗證集 4196 個,未見環境驗證集 9483 個;150183 個標志物,其中訓練集 121146 個,已見環境驗證集 8741 個,未見環境驗證集 20296 個。

wKgZomU10DOAaVXnAAIx1uvi4R8766.png▲圖3. GEL-R2R數據集統計分析 wKgZomU10DOAdwO2AAAtJ0fTuoM459.png

GELA方法

wKgZomU10DOADXdrAARjJLZ30i8478.png圖4. GELA方法概覽

如圖 4 所示,方法流程分為三個階段:預訓練(pre-training)、自適應預訓練(adaptive pre-training)和微調(fine-tuning)。我們直接在預訓練模型 HAMT [3] 的基礎上進行自適應預訓練,HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態編碼器構成。我們將跨模態編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們設計了三種自適應預訓練任務:

1. 實體短語預測。在這個任務中,我們通過標注的環境標志物預測其對應的實體短語在指令中的位置。首先將人工標注的實體位置轉化為 L+1 維的掩碼向量 (與 維度相同),并將人工標注的標志物邊界框轉化為 37 維的掩碼向量 (與 維度相同)。然后,我們將標志物圖像 patch 的特征平均化,并將其輸入一個兩層前饋網絡(Feedforward Network, FFN)中,預測指令序列中 token 位置的概率分布,用掩碼向量 作監督,具體損失函數為:

wKgZomU10DOAJKS2AAAX-lg11Os006.png

wKgZomU10DSAezOmAAAX-6i6ifg222.png

2. 標志物邊界框預測。在這個任務中,我們通過標注的實體名詞預測其對應的標志物邊界框坐標。首先平均實體短語 token 的特征向量,然后將其輸入兩層 FFN 和 Sigmoid 函數預測坐標 :

wKgZomU10DSAEijaAAAVifzwXqI883.png

最后,將人工標注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 損失和 GIoU 損失:

wKgZomU10DSAahFTAAAUW23ODXc548.png

3. 實體-標志物語義對齊。上述兩個單向預測任務使用位置信息來匹配實體和標志物,而此任務在跨模態編碼器輸出端強制對齊相對應的標志物和實體的特征向量。這個任務的約束比上面兩個單向預測任務更強,因為它直接作用于表示,而不是僅僅基于位置信息。具體損失函數如下:

wKgZomU10DSANVDoAAB0Xlwcdgw449.png自適應預訓練最終的損失函數為:

wKgZomU10DSABFrEAAAP7deVISE239.png

經過自適應預訓練后,我們利用模仿學習 (Imitation Learning,IL) 和強化學習 (Reinforcement Learning,RL) 訓練策略對 GELA 模型在兩個 VLN 下游任務(R2R 和 CVDN)上進行微調。IL 監督智能體克隆專家的行為,RL 鼓勵智能體根據學習策略探索軌跡。 wKgZomU10DWAZwyjAAAr2pbNr48702.png ?

實驗結果

如圖 5 所示,GELA 模型在 R2R 數據集上與先前 SOTA 模型的性能進行比較。GELA 模型在所有子集上的主要指標(SR 和 SPL)均優于所有其他模型。具體地,在已知驗證集上,GELA 的性能與 HAMT 模型相當,而在未知驗證集和測試集上,GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知環境泛化能力,這主要是由于 GELA 模型在學習實體-標志物對齊后,具有較強的語義特征捕捉能力。 wKgZomU10DWAfcr3AAMjz4D3vq4782.png 圖5. R2R數據集上的性能對比 我們同樣在 CVDN 數據集上對比了 GELA 模型與先前 SOTA 模型的性能,如圖 6 所示,該數據集使用以米為單位的目標進度 (Goal Progress,GP) 作為關鍵性能指標。結果表明,GELA 模型在驗證集和測試集上的性能都明顯優于其他模型。因此,GELA 模型對不同的 VLN 下游任務具有良好的泛化能力。

wKgZomU10DWAPX-AAADJrBWOOD4487.png圖6. CVDN數據集上的性能對比

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg

參考文獻

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg ?

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

·


原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2927

    文章

    45794

    瀏覽量

    387194

原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型的
    的頭像 發表于 03-21 18:24 ?775次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    GLAD應用:大氣像差與自適應光學

    概述 激光在大氣湍流中傳輸時會拾取大氣湍流導致的相位畸變,特別是在長距離傳輸的激光通信系統中。這種畸變會使傳輸激光的波前劣化。通過在系統中引入自適應光學系統,可以對激光傳輸時拾取的低頻畸變進行校正
    發表于 03-10 08:55

    用PaddleNLP在4060單卡上實踐大模型訓練技術

    作者:算力魔方創始人/英特爾創新大使劉力 之前我們分享了《從零開始訓練一個大語言模型需要投資多少錢》,其中高昂的訓練費用讓許多對大模型
    的頭像 發表于 02-19 16:10 ?793次閱讀
    用PaddleNLP在4060單卡上實踐大模型<b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型訓練
    的頭像 發表于 02-10 09:37 ?327次閱讀

    基于自適應優化的高速交叉矩陣設計

    提出了一種基于自適應優化的交叉矩陣傳輸設計,采用AHB協議并引入自適應突發傳輸調整和自適應優先級調整的創新機制。通過動態調整突發傳輸的長度和優先級分配,實現了對數據流的有效管理,提升了系統的帶寬
    的頭像 發表于 01-18 10:24 ?323次閱讀

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    模型展示了強大的泛化能力,能夠將在模擬環境學到的技能遷移到真實場景。RT-2的改進版本更是引入了視覺-語言訓練技術,使模型能夠理解更抽象的任務描述。 第8章通過具體應用案例展現了具身
    發表于 12-24 15:03

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發現VLM可以作為一種無需任何微調或
    的頭像 發表于 11-22 09:42 ?675次閱讀

    AGV激光導航定位技術與構建地圖

    AGV是制造物流重要設備,激光導航AGV高可靠靈活,SLAM技術關鍵,激光SLAM成熟且落地豐富,無需人工標志物,復合式激光導航兼顧可靠性與靈活性,激光導航結合內部傳感器提升
    的頭像 發表于 11-06 11:51 ?668次閱讀
    AGV激光<b class='flag-5'>導航</b>定位技術與構建地圖

    ai大模型訓練方法有哪些?

    AI大模型訓練方法是一個復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統一的范圍。 數據增強:通過旋轉、縮放、裁剪等
    的頭像 發表于 07-16 10:11 ?2876次閱讀

    如何在自己的固件中增加wifi自適應性相關功能,以通過wifi自適應認證測試?

    目前官方提供了自適應測試固件 ESP_Adaptivity_v2.0_26M_20160322.bin 用于進行 wifi 自適應認證測試. 請問如何在自己的固件中增加 wifi 自適應性相關功能,以通過 wifi
    發表于 07-12 08:29

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定義、原理、應用、區別和聯系等方面詳細探討
    的頭像 發表于 07-11 10:12 ?1861次閱讀

    語言模型的訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識
    的頭像 發表于 07-11 10:11 ?853次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    在人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過在大規模文本數據上進行訓練
    的頭像 發表于 07-10 11:03 ?2526次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?4058次閱讀

    上海大學:研發電化學生物傳感器檢測神經系統疾病生物標志物

    傳感新品 【上海大學:研發電化學生物傳感器檢測神經系統疾病生物標志物】 神經絲蛋白輕鏈(NEFL)是神經退行性疾病的潛在生物標志物,白細胞介素-6(IL-6)也與神經炎癥密切相關。尤其是NEFL
    的頭像 發表于 06-28 17:15 ?1129次閱讀
    上海大學:研發電化學生物傳感器檢測神經系統疾病生物<b class='flag-5'>標志物</b>