女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于全景分割的全場景圖生成任務

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-08-24 10:33 ? 次閱讀

【導讀】本文提出基于全景分割的全場景圖生成(panoptic scene graph generation,即PSG)任務。相比于傳統基于檢測框的場景圖生成,PSG任務要求全面地輸出圖像中的所有關系(包括物體與物體間關系,物體與背景間關系,背景與背景間關系),并用準確的分割塊來定位物體。PSG任務旨在推動計算機視覺模型對場景最全面的理解和感知,用全面的識別結果更好地支撐場景描述、視覺推理等下游任務。同時PSG數據集提供的關系標注和全景分割也為解決當前圖像生成領域對關系不敏感的問題創造了新的機遇。

現在已經2022年了,但是當下大多數的計算機視覺任務卻仍然只關注于圖像感知。比如說,圖像分類任務只需要模型識別圖像中的物體物體類別。

雖然目標檢測,圖像分割等任務進一步要求找到物體的位置,然而,此類任務仍然不足以說明模型獲得了對場景全面深入的理解。

以下圖1為例,如果計算機視覺模型只檢測到圖片中的人、大象、柵欄、樹木等,我們通常不會認為模型已經理解了圖片,而該模型也無法根據理解做出更高級的決策,例如發出「禁止投喂」的警告。

事實上,在智慧城市、自動駕駛智能制造等許多現實世界的AI場景中,除了對場景中的目標進行定位外,我們通常還期待模型對圖像中各個主體之間的關系進行推理和預測。

例如,在自動駕駛應用中,自動車需要分析路邊的行人是在推車還是在騎自行車。根據不同的情況,相應的后續決策可能都會有所不同。而在智能工廠場景中,判斷操作員是否操作安全正確也需要監控端的模型有理解主體之間關系的能力。

大多數現有的方法都是手動設置一些硬編碼的規則。這使得模型缺乏泛化性,難以適應其他特定情況。

場景圖生成任務(scene graph generation,或SGG)就旨在解決如上的問題。在對目標物體進行分類和定位的要求之上,SGG任務還需要模型預測對象之間的關系(見圖 2)。

a77441c4-22e5-11ed-ba43-dac502259ad0.jpg

圖2:場景圖生成

傳統場景圖生成任務的數據集通常具有對象的邊界框標注,并標注邊界框之間的關系。但是,這種設置有幾個固有的缺陷:

(1)邊界框無法準確定位物體:如圖2所示,邊界框在標注人時不可避免地會包含人周圍的物體;

(2)背景無法標注:如圖2所示,大象身后的樹木用bounding box標注,幾乎覆蓋了整個圖像,所以涉及到背景的關系無法準確標注,這也使得場景圖無法完全覆蓋圖像,無法達到全面的場景理解。

因此,作者提出全場景圖生成(PSG)任務,攜同一個精細標注的大規模PSG數據集。

a790abd4-22e5-11ed-ba43-dac502259ad0.png

圖3:全場景圖生成

如圖 3 所示,該任務利用全景分割來全面準確地定位對象和背景,從而解決場景圖生成任務的固有缺點,從而推動該領域朝著全面和深入的場景理解邁進。

論文信息

a7b9525a-22e5-11ed-ba43-dac502259ad0.png

Paper link: https://arxiv.org/abs/2207.11247

Project Page: https://psgdataset.org/

OpenPSG Codebase: https://github.com/Jingkang50/OpenPSG

Competition Link: https://www.cvmart.net/race/10349/base

ECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/

HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG

作者提出的PSG數據集包含近五萬張coco的圖片,并基于coco已有的全景分割標注,標注了分割塊之間的關系。

作者精細地定義了56種關系,包括了位置關系(over,in front of,等),常見的物體間關系(hanging from等),常見的生物動作(walking on,standing on,等),人類行為(cooking等),交通場景中的關系(driving,riding等),運動場景中的關系(kicking等),以及背景間關系(enclosing等)。

作者要求標注員能用更準確的動詞表達就絕不用更模糊的表達,并且盡可能全地標注圖中的關系。

a7c4f952-22e5-11ed-ba43-dac502259ad0.gif

PSG模型效果展示

任務優勢

作者通過下圖的例子再次理解全場景圖生成(PSG)任務的優勢:

a8536520-22e5-11ed-ba43-dac502259ad0.png

左圖來自于SGG任務的傳統數據集Visual Genome (VG-150)。可以看到基于檢測框的標注通常不準確,而檢測框覆蓋的像素也不能準確定位物體,尤其是椅子,樹木之類的背景。同時,基于檢測框的關系標注通常會傾向于的標注一些無聊的關系,如「人有頭」,「人穿著衣服」。

相比之下,右圖中提出的 PSG 任務提供了更全面(包括前景和背景的互動)、更清晰(合適的物體粒度)和更準確(像素級準確)的場景圖表示,以推動場景理解領域的發展。

兩大類PSG模型

為了支撐提出的PSG任務,作者搭建了一個開源代碼平臺OpenPSG,其中實現了四個雙階段的方法和兩個單階段的方法,方便大家開發、使用、分析。

a877c10e-22e5-11ed-ba43-dac502259ad0.png

雙階段的方法利用Panoptic-FPN在第一階段中對圖像進行全景分割。

接下來作者提取全景分割得到的物體的特征以及每一對物體融合的關系特征,送至下一階段的關系預測階段。框架已集成復現了傳統場景圖生成的經典方法IMP,VCTree,Motifs,和GPSNet。

a890fe62-22e5-11ed-ba43-dac502259ad0.png

PSGFormer是基于雙decoder DETR的單階段方法。

模型首先在a)中通過卷積神經網絡backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入,同時初始化一組用以表示三元組的queries。

與DETR類似地, 在b)中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進行cross-attention操作。

隨后模型在c)中將解碼完成的每個query分別輸入主謂賓三元組對應的預測模塊,最后得到對應的三元組預測結果。

a8a60924-22e5-11ed-ba43-dac502259ad0.png

PSGFormer基于雙decode的DETR的單階段方法。

模型在a) 通過CNN提取圖片特征,加以位置編碼信息輸入編碼器,同時初始化了兩組queries分別代表物體和關系。

接著在b)步驟里,模型基于編碼器編碼的圖片信息,分別在物體解碼器和關系編碼器中通過cross-attention解碼學習物體query和關系query。

當兩類query均學習完畢后,在c)中通過映射后匹配,得到成對的三元組query。

最后在d)中通過預測頭分別完成關于物體query和關系query的預測,并根據c)中的匹配結果得到最終的三元組預測結果。

PSGTR與PSGFormer都是在DETR的基礎上進行擴展和改進的模型,不同的地方在于PSGTR用一組query對于三元組直接建模而PSGFormer則通過兩組query分別對物體和關系建模,兩種方法各有利弊,具體可參考論文中實驗結果。

結論分享

大部分在SGG任務上有效的方法在PSG任務上依舊有效。然而有一些利用較強的數據集統計先驗,或主謂賓中謂語方向先驗的方法可能沒那么奏效。這可能是由于PSG數據集相較于傳統VG數據集的bias沒有那么嚴重,并且對謂語動詞的定義更加清晰可學。因此,作者希望后續的方法關注視覺信息的提取和對圖片本身的理解。統計先驗可能在刷數據集上有效,但不本質。

相比于雙階段模型,單階段模型目前能達到更好的效果。這可能得益于單階段模型有關于關系的監督信號可以直接傳遞到feature map端,使得關系信號參與了更多的模型學習,有利于對關系的捕捉。但是由于本文只提出了若干基線模型,并沒有針對單階段或雙階段模型進行調優,因此目前還不能說單階段模型一定強于雙階段模型。這還希望參賽選手繼續探索。

相比于傳統的SGG任務,PSG任務基于全景分割圖進行關系配對,要求對于每個關系中主賓物體的id 進行確認。相比于雙階段直接預測全景分割圖完成物體id 的劃分,單階段模型需要通過一系列后處理完成這一步驟。若基于現有單階段模型進一步改進升級,如何在單階段模型中更有效的完成物體id的確認,生成更好的全景分割圖,仍是一個值得探索的話題。

最后,歡迎大家試用HuggingFace:

a8d5786c-22e5-11ed-ba43-dac502259ad0.gif

Demo:https://huggingface.co/spaces/ECCV2022/PSG

關于圖像生成的展望

最近大火的基于文字輸入的生成模型(如DALL-E2) 著實令人驚嘆,但是也有研究表明,這些生成模型可能只是把文本中的幾個實體粘合在一起,甚至都沒有理解文本中表述的空間關系。

如下圖,雖然輸入的是「杯子在勺子上」,生成的圖片仍然都是「勺子在杯子里」。

a92c6f14-22e5-11ed-ba43-dac502259ad0.png

正巧,PSG數據集標注了基于mask的scene graph關系。

作者可以利用scene graph和全景分割mask作為訓練對,得到一個text2mask的模型,在基于mask生成更細致的圖片。

因此,PSG數據集有可能也為注重關系的圖像生成提供了潛在的解決方案。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    9

    文章

    1706

    瀏覽量

    46612
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25315
  • 智能制造
    +關注

    關注

    48

    文章

    5851

    瀏覽量

    77541

原文標題:南洋理工提出全場景圖生成PSG任務,像素級定位物體,還得預測56種關系

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    圓滿收官!科士達全場景光儲生態點燃全球追光者盛宴

    6月13日,SNECPV+2025圓滿收官。科士達以600㎡雙層全景展臺、二十余款硬核產品及智慧能源解決方案,為全球“追光者”呈現了一場集技術高度、場景深度與互動熱度的光儲充盛宴。展會期間人潮
    的頭像 發表于 06-18 09:56 ?210次閱讀
    圓滿收官!科士達<b class='flag-5'>全場景</b>光儲生態點燃全球追光者盛宴

    芯資訊|廣州唯創電子語音識別芯片:全場景覆蓋與長效品質

    在人工智能與物聯網技術深度融合的今天,語音識別技術已成為智能設備交互的核心入口。作為國內語音芯片領域的佼佼者,廣州唯創電子憑借其全場景覆蓋的產品矩陣、超長生命周期保障及嚴苛的品質管理體系,在語音識別
    的頭像 發表于 05-20 08:36 ?126次閱讀
    芯資訊|廣州唯創電子語音識別芯片:<b class='flag-5'>全場景</b>覆蓋與長效品質

    DuxCam G2S全景相機,提供360°全景測繪解決方案

    DuxCam G2S是一款采用全局快門傳感器的高分辨率高幀率全景相機,可用于全天候條件下在各類移動平臺上采集全景影像。其采用全新計算平臺,至高能夠以7200萬滿分辨率、20FPS幀速率采集全景
    發表于 04-07 16:26

    敏捷合成器的技術原理和應用場景

    ,在多個領域具有廣泛的應用場景: 通信測試:在通信設備的研發和生產過程中,敏捷合成器可用于生成各種調制信號和測試信號,以驗證設備的性能和穩定性。 雷達系統:雷達系統需要高精度和高穩定性的信號源來生成雷達
    發表于 02-20 15:25

    畫面分割器怎么調試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個視頻信號分割成多個小畫面的設備。這種設備廣泛應用于監控系統、視頻會議、多畫面顯示等場景。調試畫面
    的頭像 發表于 10-17 09:32 ?976次閱讀

    億緯鋰能全場景鋰電池方案,加速萬物互聯

    日前,The smarter E Europe盛大開幕,億緯鋰能攜全場景鋰電池解決方案驚艷亮相,協同全球伙伴,展全方位實力。
    的頭像 發表于 08-20 11:15 ?952次閱讀

    惠普AI PC全場景AI解決方案重磅發布, AI一步到位,智能觸手可及

    產品組合,并與本土軟件合作伙伴攜手,共同構建惠普專屬的AI生態,力求滿足用戶在工作、生活、娛樂全場景下的使用需求,實現AI技術在日常生活中的無縫融入,助力用戶在工作效率和生活體驗上實現雙重提升。 (:2024惠普AI PC 全場景
    的頭像 發表于 08-02 17:53 ?948次閱讀
    惠普AI PC<b class='flag-5'>全場景</b>AI解決方案重磅發布, AI一步到位,智能觸手可及

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發布會,重點詮釋羅馬仕全場景用電體驗戰略方向。全場景用電體驗戰略是羅馬仕多年來專注
    的頭像 發表于 07-21 10:15 ?941次閱讀
    專注充電充滿想象,羅馬仕全球品牌升級打造<b class='flag-5'>全場景</b>用電體驗生態

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發布會,重點詮釋羅馬仕全場景用電體驗戰略方向。全場景用電體驗戰略是羅馬仕多年來專注
    發表于 07-19 20:46 ?484次閱讀
    專注充電充滿想象,羅馬仕全球品牌升級打造<b class='flag-5'>全場景</b>用電體驗生態

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務,它旨在將圖像中的每個像素分配到相應的語義類別中。這項技術在許多領域都有廣泛的應用,如自動駕駛、醫學圖像分析、機器人導航等。 一、圖像語義分割的基本原理 1.1
    的頭像 發表于 07-17 09:56 ?847次閱讀

    圖像分割和語義分割的區別與聯系

    圖像分割和語義分割是計算機視覺領域中兩個重要的概念,它們在圖像處理和分析中發揮著關鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區域或對象的過程。這些區域或對象具有相似的屬性
    的頭像 發表于 07-17 09:55 ?1790次閱讀

    圖像分割與目標檢測的區別是什么

    圖像分割與目標檢測是計算機視覺領域的兩個重要任務,它們在許多應用場景中都發揮著關鍵作用。然而,盡管它們在某些方面有相似之處,但它們的目標、方法和應用場景有很大的不同。本文將介紹圖像
    的頭像 發表于 07-17 09:53 ?2260次閱讀

    機器學習中的數據分割方法

    在機器學習中,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數據分割的方法,包括常見的分割方法、各自的優缺點、
    的頭像 發表于 07-10 16:10 ?3044次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型,在圖像分割與語義
    的頭像 發表于 07-09 11:51 ?1831次閱讀

    機器人視覺技術中常見的圖像分割方法

    場景理解、導航和交互等任務至關重要。以下是一些常見的圖像分割方法: 閾值分割法(Thresholding) 閾值分割法是一種基于像素強度的
    的頭像 發表于 07-09 09:31 ?1302次閱讀