女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TOIST借助COCO掩碼將問題擴展到實例分割問題實現更精細的定位

3D視覺工坊 ? 來源:3D視覺工坊 ? 作者:3D視覺工坊 ? 2022-10-27 10:20 ? 次閱讀

0. 引言

歸功于大規模視覺語言模型,名詞指代表達理解模型已經取得了巨大的進展。然而,在像智能服務機器人這樣的現實交互中,系統輸入通常較為隱晦(比如舒服得坐下這樣的動作),現代視覺語言模型設計是否能有效地理解動詞所指仍然有待探索。

1. 論文信息

2. 摘要

目前的指代表達理解算法可以有效地檢測或分割名詞所指的對象,但如何理解動詞指代仍然是一個有待探索的問題。因此,我們研究了具有挑戰性的面向任務的檢測問題,該問題旨在找到最好地由動詞所指示動作的對象,如舒適地坐在上面。為了更好地為機器人交互等下游應用服務,我們將問題擴展到面向任務的實例分割。這項任務的一個獨特要求是在可能的備選方案中選擇首選候選方案。因此,我們求助于transformer體系結構,它自然地對成對查詢關系進行建模,這構建了TOIST方法。為了利用預先訓練的名詞指代表達理解模型,以及我們可以在訓練期間訪問特權名詞基礎事實的事實,提出了一種新的名詞-代詞提取框架。名詞原型以無監督的方式生成,并且上下文代詞特征被訓練來選擇原型。因此,網絡在推理過程中保持名詞不可知。我們在面向任務的大規模數據集COCO-Tasks上進行測試并實現比最佳報告結果高出10.9%。提出的名詞代詞提取可以將mAPbox和mAPmask分別提高2.8%和3.8%。

3. 算法分析

3.1 任務描述

TOIST這篇文章目的是解決面向任務的檢測問題,那么什么是面向任務呢?如圖1右上角所示,當輸入為“涂抹黃油”時,系統會輸出叉子的檢測框,因為叉子可用于涂抹黃油。當然這只是COCO-Tasks提出的目標檢測問題,TOIST還借助現有的COCO掩碼將問題擴展到實例分割問題,以此來實現更精細的定位。例如當輸入為“舒服得坐著”時,系統會分割出沙發。因此,TOIST提出的面向任務的實例分割方案(圖1底部)可以很好得在點云分割和三維重建等領域發揮作用,對于下游機器人的交互應用具有重要意義。 82fc8faa-5584-11ed-a3b6-dac502259ad0.png 圖1 左上:名詞指代表達理解,右上:面向任務的檢測,下部:面向任務的實例分割。 當然了,面向任務的檢測/分割方法的一個有趣且具有挑戰性的特征是內在歧義。例如,在圖1的右上圖中,比薩餅皮也可以用來涂抹黃油。如果我們手邊既沒有叉子也沒有比薩餅皮,仍然可以用盤子涂抹黃油。以及如圖1底部所示。當我們考慮要踩的物體時,椅子是更好的選擇,因為沙發很軟,桌子移動起來很重。當需要舒適地坐著時,沙發顯然是最好的選擇。換句話說,提供動詞的對象是不明確的,算法需要對偏好進行建模。

3.2 算法原理

近年來Transformer大火,TOIST的作者認為注意力機制可以很好得對候選對象之間的相對偏好進行建模,因此設計了一種面向任務的實例分割Transformer。 眾所周知,訓練Transformer需要大量數據,而大規模的具有相對偏好的動詞參考數據非常少見。因此作者從另一個角度出發,探索了在名詞指代表達理解模型中重用知識的可能性,即使用代詞如某物作為代理,并從聚類生成的名詞嵌入原型中提取知識。 具體來說,TOIST首先使用特權名詞訓練具有動詞-名詞輸入的TOIST模型(例如,踩在圖1底部的底部面板的椅子上)。但是在推理過程中,不能訪問名詞椅子,因此用動詞代詞輸入(例如,踩在某物上)訓練第二個TOIST模型,并從第一個TOIST模型中提取知識。因此,第二TOIST模型在推理期間保持名詞不可知,并且比直接用動詞-代詞輸入訓練模型獲得更好的性能。這個框架被稱為名詞-代詞提煉。總體來說,將特權名詞信息提取為代詞特征的想法非常新穎! 如圖2所示為TOIST網絡的具體架構,TOIST包含三個主要組成部分:多模態編碼器(棕色)用于提取標記化特征,Transformer編碼器(綠色)用于聚合兩個模態的特征,Transformer解碼器(藍色)用于預測具有注意力的最合適對象,其中cluster loss和soft binary target loss分別用于提取特權名詞知識和偏好知識。 83404100-5584-11ed-a3b6-dac502259ad0.png 圖2 TOIST網絡架構和名詞-代詞提煉框架 概括起來,TOIST這篇文章有以下四個方面的貢獻: (1) 第一次將面向任務的檢測任務升級為面向任務的實例分割,這個新的解決方法對機器人交互應用有實用價值。 (2) 不同于現有的兩階段模型(先檢測對象然后排序),TOIST提出了第一個基于Transformer的方法來進行面向任務的檢測/分割。它只有一個階段,并且自然地在對象查詢上用自注意力來模擬相對偏好。 (3) 為了利用名詞指代表達理解模型中的特權信息,TOIST提出了一個新的名詞-代詞提取框架。它在mAP box和mAP mask分別提升了+2.8%和+3.8%。 (4) 在COCO-Tasks數據集上取得了SOTA結果,比mAP box的最佳結果高出10.9%。

3.3 名詞代詞提煉

TOIST有兩種輸入形式,作者發現由于目標名稱(名詞)的特權信息,使用動名詞輸入的TOIST在mAP box和mAP mask上的表現提升了11.8 %和12.0 %,結果如表1所示。作者還進行了另外兩個預實驗:將動詞-名詞模型中的代詞特征lpron或ltr直接替換為動詞-名詞模型中對應的名詞特征lnoun或ltr,這種替換直接提高了性能。但是在推理過程中,基本真值對象的名詞是不可用的,作者認為一個合理的名詞-名詞蒸餾框架可以在不違反名詞不可知性約束的前提下利用動詞-名詞模型的豐富知識。 表1 與文本相關的幾種不同設置下的定量結果 837205be-5584-11ed-a3b6-dac502259ad0.png 在圖2所示的網絡框架中,兩個TOIST模型被同時訓練。教師(圖2頂部)和學生(圖2底部)分別將動詞-名詞和動詞-代詞描述作為輸入,并使用具有記憶庫和聚類提取方法來提取從名詞到代詞的優先的以對象為中心的知識(圖2左中)。作者還使用一個軟二進制目標損失來提取偏好知識(圖2中右),其中Gpred是用于計算偏好得分Spred的對數。此外,由于一個任務可以由許多不同類別的對象承擔,因此作者建立了一個文本特征記憶庫來存儲名詞特征,通過它可以選擇一個原型來代替代詞特征和提取知識,作者稱這個過程為聚類蒸餾。

4. 實驗

TOIST模型在COCO-Tasks數據集上進行實驗,這應該是唯一涉及實例級偏好的數據集。COCO-Tasks數據集包含14個任務。對于每個任務,有3600個訓練圖像和900個測試圖像。在每個圖像中,首選對象(一個或多個)的框被用作檢測的基礎事實標簽。基于現有的COCO掩碼,作者將數據集擴展到實例分割版本。

4.1 與SOTA方法的比較

表2顯示,在COCO-Tasks上,帶有名詞-代詞蒸餾的TOIST取得了最好結果。TOIST提出的一階段方法達到了41.3%的mAP box和35.2% mAP mask,比之前最好的結果(Yolo+GGNN和Mask-RCNN+GGNN)分別提高了8.1%和2.8%。名詞-代詞蒸餾將TOIST的性能進一步提升至44.1% (+10.9%)的mAP box和39.0% (+6.6%)的mAP mask。 表2 在擴展的COCO-Tasks數據集上,TOIST與SOTA基線的比較。 8397772c-5584-11ed-a3b6-dac502259ad0.png

4.2 影響因素

圖3(a)驗證了自注意力機制能夠自然地建模偏好的能力,其中兩個普通的TOIST模型分別訓練,其中一個不包含自注意力。需要注意的是,移除自注意力不會影響參數的數量。作者認為,對于具有自注意力的TOIST,隨著偏好分數的來源變得更加深入,性能逐漸提升:從29.6% mAP box和25.0% mAP mask提升到41.3%和35.2%。TOIST解碼器中的自注意力建模了對象候選之間的成對相對偏好。隨著解碼器的深入,對象候選之間的偏好關系逐漸被自注意力提取出來。在表3 (b)中,與基線相比,帶有軟二元目標損失的偏好蒸餾獲得了2.1% mAP box和2.8% mAP mask的提升。 83bf8c76-5584-11ed-a3b6-dac502259ad0.png圖3 (a)自注意力和(b)集群數量影響的實驗 表3展示了使用聚類損失和用聚類中心(名詞原型)替換代詞特征的效果。在(c)和(e)中,單獨使用兩個成分比基準(a)分別增加了0.7% mAP box、1.9% mAP mask和0.7% mAP box、1.8% mAP mask。在(g)中性能提升1.0% mAP box和2.3% mAP mask。這些結果表明,聚類蒸餾方法可以提高學生的TOIST和增強動詞指稱表達式的理解。 表3 針對聚類的消融實驗 83cdf964-5584-11ed-a3b6-dac502259ad0.png 在圖4中,作者可視化了預測結果(通過0.9的偏好閾值過濾)和代詞標記的注意力圖。在第一行中,當沒有聚類蒸餾時,TOIST錯誤地偏好花朵而不是杯子,注意圖也證實了這一點。但是聚類蒸餾的TOIST正確地選擇了杯子,而對花的注意力被削弱了。這表明聚類蒸餾使學生TOIST能夠減少動詞-代詞指稱表達式的歧義。在第二行中,刀的邊界框由兩個模型正確檢測。然而,在沒有蒸餾的情況下,在盒子內的勺子和叉子上預測額外的實例面具。相反,隨著蒸餾,TOIST預測的面具集中在刀上,注意力更集中在它上面。這表明,在集群蒸餾的情況下,TOIST可以更好地將任務研磨到對象框內的像素。同時,即使盒子是正確的,預測的掩模也可能是不準確的,這一事實使得機器人在執行特定任務時準確地抓住優選的物體具有挑戰性。這證明了將面向任務的對象檢測擴展到實例分割的重要性。 83f6b944-5584-11ed-a3b6-dac502259ad0.png 圖4 代詞標記的預測結果和注意力圖的可視化

4.3 消融研究和定性結果

表4顯示了不同代詞輸入下的TOIST結果。在普通TOIST和帶有蒸餾的TOIST中,使用某物、它或它們會導致類似的結果。而一個毫無意義的字符串abcd產生較少的改進,證明了魯棒性。 表4 針對代詞輸入的消融實驗 84114cc8-5584-11ed-a3b6-dac502259ad0.png 表5顯示了不同任務數的消融研究,其中第一行對應于沒有蒸餾的純TOIST,其他行顯示了不同數目下蒸餾的結果。總體而言,較小的n會帶來更好的性能,這是因為不同任務之間的交互更少而降低了問題的復雜性,這使得通過名詞-代詞蒸餾更容易提高模型理解動詞的能力。 表5 面向任務的目標檢測任務數消融實驗 84276724-5584-11ed-a3b6-dac502259ad0.png

5. 結論

在2022 NeurIPS論文“Centroid Distance Keypoint Detector for Colored Point Clouds”中,作者基于Transformer研究了面向任務的實例分割問題。TOIST在COCO-Tasks數據集上取得了SOTA結果,雖然沒有更大數據集上的評估,但這對于許多機器人交互應用來說已經足夠。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29508

    瀏覽量

    211633
  • 模型
    +關注

    關注

    1

    文章

    3488

    瀏覽量

    50021
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25283

原文標題:NIPS2022開源!TOIST:通過蒸餾實現面向任務的實例分割Transformer

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    如何范圍從萬FFFF擴展到FRQQUPWM=44100

    到揚聲器。我的問題是,任務只從0x000x02d3。如何范圍從萬FFFF擴展到FRQQUPWM=44100? 以上來自于百度翻譯 以下為原文 I plan to play an
    發表于 04-01 12:54

    如何利用BTA06-600CBT131的負載能力120W擴展到200W以上?

    如何利用BTA06-600CBT131的負載能力120W擴展到200W以上?如圖所示一理療燈調溫定時器(8腳IC型號不詳),原設計負載能力只有120瓦,想利用手頭的BTA06-600C將該定時器 的負載能力提高250W左右。
    發表于 01-16 01:51

    可以ESP Basic擴展到ESP32嗎?

    ,這些庫肯定會讓他建立很多偉大的項目并學習大量關于 MCU 和 IOT 的問題,你打算 ESP Basic 擴展到 ESP32 嗎 ?
    發表于 05-10 07:55

    用兩個條形信號驅動器10個單元擴展到100個單元

    用兩個條形信號驅動器10個單元擴展到100個單元
    發表于 02-25 22:00 ?802次閱讀
    用兩個條形信號驅動器<b class='flag-5'>將</b>10個單元<b class='flag-5'>擴展到</b>100個單元

    AMD稱其融聚渠道計劃擴展到行業與OEM渠道

    AMD稱其融聚渠道計劃擴展到行業與OEM渠道 AMD針對融聚合作伙伴計劃推出一系列新政策,諸如更好的在線培訓工具、增強的激勵計劃、全新的聯合營銷計劃等。
    發表于 03-05 10:11 ?595次閱讀

    蘋果iPhone 的保修范圍擴展到全球

    蘋果 iPhone 的保修范圍擴展到全球,這無論對于國行還是海外版 iPhone 的用戶而言,顯然都是件大好事。加上在概述中,蘋果對國行版 iPhone 的“海外服務”標注為“有”,就更加“佐證”了新聞“iPhone 可全球聯保”的說法。
    的頭像 發表于 06-13 11:24 ?3938次閱讀

    三星借助MicroLED技術可擴展到292英寸,顯示屏與周圍環境無縫融合!

    三星在InfoComm 2019展上推出新品“The Wall Luxury” Micro LED電視,該電視從最小73英寸開始,借助MicroLED技術可擴展到292英寸。
    的頭像 發表于 06-18 16:01 ?3347次閱讀

    蘋果可能正在尋求蘋果地圖的范圍擴展到其iDevices之外

    自蘋果公司一直尋求擴展到網絡領域以與Google Maps競爭以來,已經有很長時間了。JavaScript專家無疑幫助蘋果夢想盡快實現
    的頭像 發表于 10-27 15:06 ?1801次閱讀

    AN-1529:使用AD9215高頻VGA10位65 MSPS ADC的動態范圍擴展到100 dB以上

    AN-1529:使用AD9215高頻VGA10位65 MSPS ADC的動態范圍擴展到100 dB以上
    發表于 04-29 20:42 ?6次下載
    AN-1529:使用AD9215高頻VGA<b class='flag-5'>將</b>10位65 MSPS ADC的動態范圍<b class='flag-5'>擴展到</b>100 dB以上

    用于實例分割的Mask R-CNN框架

    是應用于每個 RoI 的小型 FCN,以像素像素的方式預測分割掩碼。鑒于 Faster R-CNN 框架,Mask R-CNN 易于實現和訓練,這有助于廣泛的靈活架構設計。此外,
    的頭像 發表于 04-13 10:40 ?2960次閱讀

    5G安全地擴展到戰場空間

      如果保持不變,5G服務必須限制在戰場的后邊緣。然而,可以5G帶到戰場中心的另一種選擇是增強或擴展核心5G網絡以獲得運營優勢,從而可以在不犧牲商業平臺優勢的情況下進一步擴展到戰場空間。
    的頭像 發表于 11-15 15:16 ?1954次閱讀

    基于通用的模型PADing解決三大分割任務

    數據需要消耗巨大的時間以及人力成本。為處理上述難題,零樣本學習(Zero-Shot Learning,ZSL)被提出用于分類沒有訓練樣本的新對象,并擴展到分割任務中,例如零樣本語義分割(Zero-Shot Semantic Se
    的頭像 發表于 06-26 10:39 ?768次閱讀
    基于通用的模型PADing解決三大<b class='flag-5'>分割</b>任務

    基于SAM設計的自動化遙感圖像實例分割方法

    RSPrompter的目標是學習如何為SAM生成prompt輸入,使其能夠自動獲取語義實例掩碼。相比之下,原始的SAM需要額外手動制作prompt,并且是一種類別無關的分割方法。
    發表于 07-04 10:45 ?1360次閱讀
    基于SAM設計的自動化遙感圖像<b class='flag-5'>實例</b><b class='flag-5'>分割</b>方法

    通過應用頻率TPS92210的調光范圍擴展到通用AC范圍

    電子發燒友網站提供《通過應用頻率TPS92210的調光范圍擴展到通用AC范圍.pdf》資料免費下載
    發表于 10-09 09:38 ?0次下載
    通過應用頻率<b class='flag-5'>將</b>TPS92210的調光范圍<b class='flag-5'>擴展到</b>通用AC范圍

    使用外部基準電壓源VOUT擴展到1.2 V以下

    電子發燒友網站提供《使用外部基準電壓源VOUT擴展到1.2 V以下.pdf》資料免費下載
    發表于 10-11 09:19 ?0次下載
    使用外部基準電壓源<b class='flag-5'>將</b>VOUT<b class='flag-5'>擴展到</b>1.2 V以下