女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多模態(tài)新任務(wù)和新數(shù)據(jù)集!NTU提出廣義引用分割問題GRES

CVer ? 來源:CVer ? 2023-06-08 15:06 ? 次閱讀

引用表達(dá)分割(Referring Expression Segmentation,簡稱引用分割或RES)是一個基礎(chǔ)的視覺語言多模態(tài)任務(wù)。給定一張圖像和一個描述該圖像中某個對象的自然語言表達(dá)式,RES旨在找到該目標(biāo)對象并將其分割。現(xiàn)有的引用分割數(shù)據(jù)集和方法通常僅支持單目標(biāo)表達(dá)式,即一個表達(dá)式指代一個目標(biāo)對象。而對于多目標(biāo)和無目標(biāo)表達(dá)式的情況,則沒有考慮在內(nèi)。嚴(yán)重限制了引用分割的實(shí)際應(yīng)用。 基于這個問題,來自新加坡南洋理工大學(xué)的研究者們定義了一個名為廣義引用分割(Generalized Referring Expression Segmentation,GRES)的新任務(wù),將經(jīng)典的引用分割擴(kuò)展到允許表達(dá)式指代任意數(shù)量的目標(biāo)對象。同時,文章還構(gòu)建了第一個大規(guī)模的GRES數(shù)據(jù)集gRefCOCO,其同時包含多目標(biāo)、無目標(biāo)和單目標(biāo)表達(dá)式。

411137b2-056a-11ee-8a94-dac502259ad0.png

論文地址:https://arxiv.org/abs/2306.00968

項(xiàng)目主頁:https://henghuiding.github.io/GRES/

RES在圖形編輯、視頻制作、人機(jī)交互和機(jī)器人等眾多應(yīng)用領(lǐng)域具有巨大潛力。目前,大多數(shù)現(xiàn)有方法都遵循在知名數(shù)據(jù)集ReferIt和RefCOCO中定義的RES規(guī)則,并在近年來取得了巨大進(jìn)展。然而,大多數(shù)經(jīng)典的引用分割方法對任務(wù)有預(yù)定義的強(qiáng)約束:

1.傳統(tǒng)的RES不考慮無目標(biāo)表達(dá)式,即在圖像中沒有匹配對象的自然表達(dá)語句。這意味著如果語句描述的目標(biāo)在輸入圖像中不存在,現(xiàn)有的RES方法的行為是未定義的。在這種假設(shè)下,輸入表達(dá)式必須與圖像中的某個對象匹配,否則會不可避免地出現(xiàn)錯誤。

2.大多數(shù)現(xiàn)有數(shù)據(jù)集,例如最流行的RefCOCO,幾乎不包含多目標(biāo)表達(dá)式,即在一句話中同時指向多個目標(biāo)物體的表達(dá)式。這意味著如果需要同時查找多個目標(biāo),用戶需要分多次鍵入查詢指令且每次只能指向一個目標(biāo)物體。

41235c9e-056a-11ee-8a94-dac502259ad0.png

圖1:引用分割的實(shí)例,使用“The kid in red”來指示并分割圖片中的紅衣服小男孩

新任務(wù):廣義引用表達(dá)式分割

在文章中,為了解決傳統(tǒng)RES存在的問題,研究者們提出了一個名為廣義引用表達(dá)分割(Generalized Referring Expression Segmentation,簡稱GRES或廣義引用分割)的新任務(wù),允許表達(dá)式指向任意數(shù)量的目標(biāo)對象。與經(jīng)典的RES類似,GRES接受一張圖像和一句自然語言表達(dá)式作為輸入。但與傳統(tǒng)RES不同,GRES進(jìn)一步支持了多目標(biāo)表達(dá)式,即在單個表達(dá)式中指定多個目標(biāo)對象,例如圖2中的“Everyone except the kid in white”,以及無目標(biāo)表達(dá)式,即表達(dá)式?jīng)]有指向圖像中的任何對象,例如圖2中的“the kid in blue”。GRES為輸入表達(dá)式提供了更大的靈活性,可以更好地支撐引用分割的實(shí)際應(yīng)用。

412bcbf4-056a-11ee-8a94-dac502259ad0.png

圖2:多目標(biāo)表達(dá)式和無目標(biāo)表達(dá)式示例

新數(shù)據(jù)集:gRefCOCO

然而,現(xiàn)有的幾個引用表達(dá)數(shù)據(jù)集,如RefCOCO系列,幾乎不包含多目標(biāo)表達(dá)式或無目標(biāo)表達(dá)式樣本,只有單目標(biāo)表達(dá)式樣本,如表1所示。

413a57e6-056a-11ee-8a94-dac502259ad0.png

表1:gRefCOCO與其他引用表達(dá)式數(shù)據(jù)集的比較

為了促進(jìn)對GRES的研究工作,本文構(gòu)建了新的大規(guī)模引用分割數(shù)據(jù)集gRefCOCO。它進(jìn)一步包含多目標(biāo)表達(dá)式和無目標(biāo)表達(dá)式。該數(shù)據(jù)集共有278,232個表達(dá)式,其中包括80,022個多目標(biāo)表達(dá)式和32,202個無目標(biāo)表達(dá)式,涉及19,994張圖像中的60,287個不同物體。

gRefCOCO數(shù)據(jù)集的多目標(biāo)表達(dá)式主要有以下難點(diǎn):

1.計(jì)數(shù)表達(dá)式:處理包含計(jì)數(shù)的表達(dá)式,需要區(qū)分基數(shù)詞和序數(shù)詞,如“two”和“second”,并具備對象計(jì)數(shù)能力。

2.復(fù)合句結(jié)構(gòu):理解復(fù)合句結(jié)構(gòu)中的多個元素之間的關(guān)系,包括“A and B”、“A except B”和“A with B or C”。如圖3中的第一個表達(dá)式。

3.屬性的范圍:要處理多目標(biāo)表達(dá)式中的不同目標(biāo)之間的屬性共享或差異,需深入理解各個屬性以及它們與相應(yīng)對象之間的關(guān)系。

4.復(fù)雜關(guān)系:多目標(biāo)表達(dá)式中的關(guān)系描述更復(fù)雜,需要理解并推斷目標(biāo)之間的關(guān)系,例如通過關(guān)鍵詞“and”來指示目標(biāo)數(shù)量。模型需對圖像和表達(dá)式中的所有實(shí)例及其相互作用有深入理解。如圖3中的第二個表達(dá)式,使用了復(fù)雜的句子來表達(dá)目標(biāo)與非目標(biāo)之間的關(guān)系。

41498446-056a-11ee-8a94-dac502259ad0.png

圖3:gRefCOCO樣本示例

無目標(biāo)表達(dá)式的構(gòu)建主要遵循兩個原則:

1.表達(dá)式不能與圖像完全無關(guān)。例如,給定圖1中的圖像,“the kid in blue”是可以接受的,因?yàn)閳D像中確實(shí)存在“kid”和“blue”,但沒有一個“kind in blue”。但是像“狗”、“汽車”、“河流”等與該圖像中的任何內(nèi)容都完全無關(guān)的表達(dá)式是不可接受的。

2.如果規(guī)則1中所要求的表達(dá)式很難想出,標(biāo)注員可以選擇從RefCOCO同一split中的其他圖像中選取具有迷惑性的表達(dá)式。

新模型:ReLA

GRES中多目標(biāo)表達(dá)式中的關(guān)系和屬性描述更加復(fù)雜。與經(jīng)典的引用分割(RES)相比,對于廣義引用表達(dá)分割(GRES)來說,更具挑戰(zhàn)性的是對圖像中區(qū)域之間的復(fù)雜交互關(guān)系進(jìn)行建模,并捕捉所有對象的細(xì)粒度屬性。本文提出了一個新的基準(zhǔn)模型ReLA,明確地對圖像的不同部分和表達(dá)式中的不同單詞進(jìn)行信息交換和相互作用,以分析它們之間的依賴關(guān)系。通過這種方式,我們能夠更好地理解圖像和表達(dá)式之間的復(fù)雜交互。

415e21b2-056a-11ee-8a94-dac502259ad0.png

所提出的關(guān)系(ReLAtionship)建模方法具有兩個主要模塊,即區(qū)域-圖像交叉注意力(Region-Image Cross Attention,RIA)和區(qū)域-語言交叉注意力(Region-Language Cross Attention,RLA)。RIA模塊靈活地收集區(qū)域圖像特征,而RLA模塊則捕捉區(qū)域之間的關(guān)系以及區(qū)域與語言之間的依賴關(guān)系。通過這兩個模塊,我們能夠更好地建模圖像和表達(dá)式之間的復(fù)雜交互,并提高引用表達(dá)分割的性能。

實(shí)驗(yàn)

根據(jù)GRES任務(wù)的特性,文章提出了新的測評指標(biāo):gIoU、N-acc、T-acc,分別用來衡量整體分割性能、正確識別無目標(biāo)表達(dá)式的性能、和無目標(biāo)表達(dá)式對引用分割的影響。

提出的基準(zhǔn)方法ReLA在GRES和傳統(tǒng)單目標(biāo)RES上均取得了最佳性能。這證明了顯式建模不同圖像區(qū)域和詞語之間的關(guān)系對引用分割的有效性。

416c7c62-056a-11ee-8a94-dac502259ad0.png

417e69f4-056a-11ee-8a94-dac502259ad0.png

對多目標(biāo)表達(dá)式的分割結(jié)果可視化如下:

41867298-056a-11ee-8a94-dac502259ad0.png

41945548-056a-11ee-8a94-dac502259ad0.png

對無目標(biāo)表達(dá)式的分割結(jié)果可視化如下:

41a24a04-056a-11ee-8a94-dac502259ad0.png

41aec70c-056a-11ee-8a94-dac502259ad0.png

總結(jié)

本文分析并解決了經(jīng)典引用分割(RES)任務(wù)的局限性,即無法處理多目標(biāo)和無目標(biāo)表達(dá)式?;诖耍疚亩x了一個名為廣義引用表達(dá)分割(GRES)的新任務(wù),允許表達(dá)式中包含任意數(shù)量的目標(biāo)。為支持GRES的研究,本文構(gòu)建了一個大規(guī)模的數(shù)據(jù)集gRefCOCO、提出了基準(zhǔn)方法ReLA,用于顯式建模不同圖像區(qū)域和詞語之間的關(guān)系。該方法在經(jīng)典的RES任務(wù)和新提出的GRES任務(wù)上取得了最佳結(jié)果。GRES降低了對自然語言輸入的限制,擴(kuò)大了引用分割的應(yīng)用范圍,如多實(shí)例和無正確對象的情況,期待GRES能夠打開了新的應(yīng)用領(lǐng)域。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29504

    瀏覽量

    211619
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1092

    瀏覽量

    41035
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25280
收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    請問UCOSIII如何切換到新任務(wù)

    UCOS/III 是在PendSV中斷里切換任務(wù)的,最后BXLR(見紅色字體),LR是舊任務(wù)返回地址, 所以應(yīng)該跳到舊任務(wù)繼續(xù)執(zhí)行,為什么會跳轉(zhuǎn)到新任務(wù)了呢?希望高手能解惑。PendS
    發(fā)表于 05-09 06:35

    黑莓10更多細(xì)節(jié)曝光:全新任務(wù)管理器

    “BlackBerry Remember”的全新任務(wù)管理器,根據(jù)資料介紹該任務(wù)管理器可讓用戶以某種方式更高效地安排和組織任務(wù)計(jì)劃,并可對任務(wù)進(jìn)行分組、進(jìn)追蹤,直到
    發(fā)表于 12-30 18:23

    廣義概率Tsallis熵的快速閾值圖像分割_張新明

    廣義概率Tsallis熵的快速閾值圖像分割_張新明
    發(fā)表于 01-08 10:40 ?1次下載

    文化場景下的模態(tài)情感識別

    學(xué)習(xí)的特征,并通過多模態(tài)融合方法結(jié)合不同的模態(tài)。比較不同單模態(tài)特征和模態(tài)特征融合的情感識別性能.我們在CHEAVD中文
    發(fā)表于 12-18 14:47 ?0次下載

    美國宇航局朝著發(fā)射新任務(wù)邁出了一大步

    美國宇航局已經(jīng)朝著發(fā)射新任務(wù)邁出了一大步,這將有助于我們更好地了解太陽與地球周圍空間環(huán)境的相互作用。該機(jī)構(gòu)已經(jīng)挑選了五個方案,并分別給了他們125萬美元,讓他們在其太陽物理項(xiàng)目下進(jìn)行為期9個月的任務(wù)
    的頭像 發(fā)表于 09-12 10:04 ?1937次閱讀

    模態(tài)MR和特征融合的GBM自動分割算法

    模態(tài)MR和特征融合的GBM自動分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    DocumentAI的模型、任務(wù)和基準(zhǔn)數(shù)據(jù)

    隨著最近幾年模態(tài)大火的,越來越多的任務(wù)都被推陳出新為模態(tài)版本。譬如,傳統(tǒng)對話任務(wù),推出了考慮
    的頭像 發(fā)表于 08-22 09:55 ?2086次閱讀

    基于圖文模態(tài)領(lǐng)域典型任務(wù)

    圖文模態(tài)領(lǐng)域典型任務(wù)如img-text retrieval、VQA、captioning、grounding等,目前的學(xué)術(shù)設(shè)定難度尚可。但是, 一旦知識范圍擴(kuò)展,到了open-ended
    的頭像 發(fā)表于 09-01 17:14 ?2679次閱讀

    一個真實(shí)閑聊模態(tài)數(shù)據(jù)TikTalk

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。
    的頭像 發(fā)表于 02-09 09:31 ?2320次閱讀

    中文模態(tài)對話數(shù)據(jù)

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)
    的頭像 發(fā)表于 02-22 11:03 ?1670次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對話<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    如何利用LLM做模態(tài)任務(wù)?

    大型語言模型LLM(Large Language Model)具有很強(qiáng)的通用知識理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放模態(tài)輸入接口并且不會透露任何模型上技術(shù)細(xì)節(jié)
    的頭像 發(fā)表于 05-11 17:09 ?1147次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>任務(wù)</b>?

    自動駕駛深度模態(tài)目標(biāo)檢測和語義分割:數(shù)據(jù)、方法和挑戰(zhàn)

    了許多解決深度模態(tài)感知問題的方法。 然而,對于網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì),并沒有通用的指導(dǎo)方針,關(guān)于“融合什么”、“何時融合”和“如何融合”的問題仍然沒有定論。本文系統(tǒng)地總結(jié)了自動駕駛 中深度模態(tài)
    發(fā)表于 06-06 10:37 ?0次下載
    自動駕駛深度<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>目標(biāo)檢測和語義<b class='flag-5'>分割</b>:<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>、方法和挑戰(zhàn)

    廣義引用分割問題GRES的應(yīng)用案例解析

    RES在圖形編輯、視頻制作、人機(jī)交互和機(jī)器人等眾多應(yīng)用領(lǐng)域具有巨大潛力。目前,大多數(shù)現(xiàn)有方法都遵循在知名數(shù)據(jù)ReferIt和RefCOCO中定義的RES規(guī)則,并在近年來取得了巨大進(jìn)展。
    發(fā)表于 06-08 15:09 ?1171次閱讀
    <b class='flag-5'>廣義</b><b class='flag-5'>引用</b><b class='flag-5'>分割</b>問題<b class='flag-5'>GRES</b>的應(yīng)用案例解析

    模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)MIMIC-IT

    然而,一個理想的 AI 對話助手應(yīng)該能夠解決涉及多種模態(tài)任務(wù)。這需要獲得一個多樣化和高質(zhì)量的模式指令跟隨數(shù)據(jù)。比如,LLaVAInst
    的頭像 發(fā)表于 06-12 16:36 ?985次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>上下文指令調(diào)優(yōu)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>MIMIC-IT

    2025未來產(chǎn)業(yè)創(chuàng)新任務(wù) | 清潔氫

    據(jù)悉,1月17日,工業(yè)和信息化部辦公廳發(fā)布《關(guān)于組織開展2025年未來產(chǎn)業(yè)創(chuàng)新任務(wù)揭榜掛帥工作的通知》(簡稱《通知》)。《通知》顯示,揭榜任務(wù)內(nèi)容面向量子科技、原子級制造、清潔氫3個未來產(chǎn)業(yè),布局
    的頭像 發(fā)表于 01-22 08:19 ?425次閱讀
    2025未來產(chǎn)業(yè)創(chuàng)<b class='flag-5'>新任務(wù)</b> | 清潔氫