女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種使用Mask Transformer進(jìn)行全景分割的端到端解決方案

OpenCV學(xué)堂 ? 來源:新智元 ? 作者:新智元 ? 2022-07-28 10:13 ? 次閱讀

【導(dǎo)讀】近日,谷歌團(tuán)隊(duì)推出了一項(xiàng)新Transformer,可用于優(yōu)化全景分割方案,還登上了CVPR 2022。

最近,谷歌AI團(tuán)隊(duì)受Transformer和DETR的啟發(fā)提出了一種使用Mask Transformer進(jìn)行全景分割的端到端解決方案。

全稱是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架構(gòu)的擴(kuò)展。

該解決方案采用像素路徑(由卷積神經(jīng)網(wǎng)絡(luò)或視覺Transformer組成)提取像素特征,內(nèi)存路徑(由Transformer解碼器模塊組成)提取內(nèi)存特征,以及雙路徑Transformer用于像素特征和內(nèi)存之間的交互特征。

然而,利用交叉注意力的雙路徑Transformer最初是為語言任務(wù)設(shè)計(jì)的,它的輸入序列由幾百個(gè)單詞構(gòu)成。

而對(duì)視覺任務(wù)尤其是分割問題來說,其輸入序列由數(shù)萬個(gè)像素組成,這不僅表明輸入規(guī)模的幅度要大得多,而且與語言單詞相比也代表了較低級(jí)別的嵌入。

全景分割是一個(gè)計(jì)算機(jī)視覺問題,它是現(xiàn)在許多應(yīng)用程序的核心任務(wù)。

它分為語義分割和實(shí)例分割兩部分。

語義分割就比如為圖像中的每個(gè)像素分配語義標(biāo)簽,例如「人」和「天空」。

而實(shí)例分割僅識(shí)別和分割圖中的可數(shù)對(duì)象,如「行人」和「汽車」,并進(jìn)一步將其劃分為幾個(gè)子任務(wù)。

每個(gè)子任務(wù)單獨(dú)處理,并應(yīng)用額外的模塊來合并每個(gè)子任務(wù)階段的結(jié)果。

這個(gè)過程不僅復(fù)雜,而且在處理子任務(wù)和整合不同子任務(wù)結(jié)果時(shí)還會(huì)引入許多人工設(shè)計(jì)的先驗(yàn)。

332dcd92-0dbb-11ed-ba43-dac502259ad0.png

在 CVPR 2022 上發(fā)表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出從聚類的角度重新解讀并且重新設(shè)計(jì)交叉注意力cross attention(也就是將相同語義標(biāo)簽的像素分在同一組),從而更好地適應(yīng)視覺任務(wù)。

CMT-DeepLab 建立在先前最先進(jìn)的方法 MaX-DeepLab 之上,并采用像素聚類方法來執(zhí)行交叉注意,從而產(chǎn)生更密集和合理的注意圖。

33465a56-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 進(jìn)一步重新設(shè)計(jì)了交叉注意力,使其更像一個(gè) k-means 聚類算法,對(duì)激活函數(shù)進(jìn)行了簡(jiǎn)單的更改。

結(jié)構(gòu)總覽

研究人員將從聚類的角度進(jìn)行重新解釋,而不是直接將交叉注意力應(yīng)用于視覺任務(wù)而不進(jìn)行修改。

具體來說,他們注意到Mask Transformer 對(duì)象查詢可以被認(rèn)為是集群中心(旨在對(duì)具有相同語義標(biāo)簽的像素進(jìn)行分組)。

交叉注意力的過程類似于 k-means 聚類算法,(1)將像素分配給聚類中心的迭代過程,其中可以將多個(gè)像素分配給單個(gè)聚類中心,而某些聚類中心可能沒有分配的像素,以及(2)通過平均分配給同一聚類中心的像素來更新聚類中心,如果沒有分配像素,則不會(huì)更新聚類中心)。

33569146-0dbb-11ed-ba43-dac502259ad0.png

在CMT-DeepLab和kMaX-DeepLab中,我們從聚類的角度重新制定了交叉注意力,其中包括迭代聚類分配和聚類更新步驟

鑒于 k-means聚類算法的流行,在CMT-DeepLab中,他們重新設(shè)計(jì)了交叉注意力,以便空間方面的softmax操作(即沿圖像空間分辨率應(yīng)用的 softmax 操作),實(shí)際上將聚類中心分配給相反,像素是沿集群中心應(yīng)用的。

在 kMaX-DeepLab 中,我們進(jìn)一步將空間方式的 softmax 簡(jiǎn)化為集群方式的 argmax(即沿集群中心應(yīng)用 argmax 操作)。

他們注意到 argmax 操作與 k-means 聚類算法中使用的硬分配(即一個(gè)像素僅分配給一個(gè)簇)相同。

從聚類的角度重新構(gòu)建MaskTransformer的交叉注意力,顯著提高了分割性能,并簡(jiǎn)化了復(fù)雜的Masktransformer管道,使其更具可解釋性。

首先,使用編碼器-解碼器結(jié)構(gòu)從輸入圖像中提取像素特征。然后,使用一組聚類中心對(duì)像素進(jìn)行分組,這些像素會(huì)根據(jù)聚類分配進(jìn)一步更新。最后,迭代執(zhí)行聚類分配和更新步驟,而最后一個(gè)分配可直接用作分割預(yù)測(cè)。

338234fe-0dbb-11ed-ba43-dac502259ad0.png

為了將典型的MaskTransformer解碼器(由交叉注意力、多頭自注意力和前饋網(wǎng)絡(luò)組成)轉(zhuǎn)換為上文提出的k-means交叉注意力,只需將空間方式的softmax替換為集群方式最大參數(shù)。

本次提出的 kMaX-DeepLab 的元架構(gòu)由三個(gè)組件組成:像素編碼器、增強(qiáng)像素解碼器和 kMaX 解碼器。

像素編碼器是任何網(wǎng)絡(luò)主干,用于提取圖像特征。

增強(qiáng)的像素解碼器包括用于增強(qiáng)像素特征的Transformer編碼器,以及用于生成更高分辨率特征的上采樣層。

一系列 kMaX 解碼器將集群中心轉(zhuǎn)換為 (1) Mask嵌入向量,其與像素特征相乘以生成預(yù)測(cè)Mask,以及 (2) 每個(gè)Mask的類預(yù)測(cè)。

3390e68e-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的元架構(gòu)

研究結(jié)果

最后,研究小組在兩個(gè)最具挑戰(zhàn)性的全景分割數(shù)據(jù)集 COCO 和 Cityscapes 上使用全景質(zhì)量 (PQ) 度量來評(píng)估 CMT-DeepLab 和 kMaX-DeepLab,并對(duì)比 MaX-DeepLab 和其他最先進(jìn)的方法。

其中CMT-DeepLab 實(shí)現(xiàn)了顯著的性能提升,而 kMaX-DeepLab 不僅簡(jiǎn)化了修改,還進(jìn)一步提升了,COCO val set 上的 PQ 為 58.0%,PQ 為 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 驗(yàn)證集上的 83.5% 平均交集比聯(lián)合(mIoU),沒有測(cè)試時(shí)間增強(qiáng)或使用外部數(shù)據(jù)集。

33a23c36-0dbb-11ed-ba43-dac502259ad0.png

從聚類的角度設(shè)計(jì),kMaX-DeepLab 不僅具有更高的性能,而且還可以更合理地可視化注意力圖以了解其工作機(jī)制。

在下面的示例中,kMaX-DeepLab 迭代地執(zhí)行聚類分配和更新,從而逐漸提高M(jìn)ask質(zhì)量。

33b1197c-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的注意力圖可以直接可視化為全景分割,讓模型工作機(jī)制更合理

結(jié)論

本次研究展示了一種更好地設(shè)計(jì)視覺任務(wù)中的MaskTransformer的方法。

通過簡(jiǎn)單的修改,CMT-DeepLab 和 kMaX-DeepLab 重新構(gòu)建了交叉注意力,使其更像一種聚類算法。

因此,所提出的模型在COCO 和 Cityscapes數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。

研究團(tuán)隊(duì)表示,他們希望 DeepLab2 庫中 kMaX-DeepLab 的開源版本有助于未來對(duì)專用于視覺Transformer架構(gòu)設(shè)計(jì)的研究。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1163

    瀏覽量

    41695
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1092

    瀏覽量

    41016
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1706

    瀏覽量

    46568

原文標(biāo)題:谷歌團(tuán)隊(duì)推出新Transformer,優(yōu)化全景分割方案|CVPR 2022

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ”智駕芯片,英偉達(dá)DRIVE Thor接棒,車企自研芯片對(duì)標(biāo)行業(yè)領(lǐng)先

    。 ? 在智駕芯片層面,不少廠商采用了英偉達(dá)的DRIVE Orin芯片,以及下代智能駕駛計(jì)算平臺(tái)Thor進(jìn)行開發(fā),MDC610、地平線征程5、征程6芯片、小鵬圖靈AI芯片等也加入
    的頭像 發(fā)表于 12-09 09:05 ?2851次閱讀

    文帶你厘清自動(dòng)駕駛架構(gòu)差異

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計(jì)思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感知、預(yù)測(cè)、規(guī)劃和控制等子任務(wù)拆分開,分別由不
    的頭像 發(fā)表于 05-08 09:07 ?162次閱讀
    <b class='flag-5'>一</b>文帶你厘清自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    中興通訊推出基于AI驅(qū)動(dòng)的全新網(wǎng)絡(luò)解決方案

    在世界移動(dòng)通信大會(huì)期間(MWC25巴塞羅那 當(dāng)?shù)貢r(shí)間3月4日上午),中興通訊隆重舉辦了AIR DNA未來網(wǎng)絡(luò)發(fā)布會(huì),正式推出基于AI驅(qū)動(dòng)的全新網(wǎng)絡(luò)解決方案——AIR DNA。該
    的頭像 發(fā)表于 03-05 16:39 ?478次閱讀

    國產(chǎn)萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡(luò)解決方案

    國產(chǎn)萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡(luò)解決方案
    的頭像 發(fā)表于 02-28 10:01 ?350次閱讀
    國產(chǎn)萬兆以太網(wǎng)通信芯片提供<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的車載網(wǎng)絡(luò)<b class='flag-5'>解決方案</b>

    已來,智駕仿真測(cè)試該怎么做?

    智駕方案因強(qiáng)泛化能力、可持續(xù)學(xué)習(xí)與升級(jí)等優(yōu)勢(shì)備受矚目,但這對(duì)仿真測(cè)試帶來了巨大挑戰(zhàn)。康謀探索了一種有效的
    的頭像 發(fā)表于 12-04 09:59 ?3125次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>已來,智駕仿真測(cè)試該怎么做?

    黑芝麻智能算法參考模型公布

    黑芝麻智能計(jì)劃推出支持華山及武當(dāng)系列芯片的算法參考方案。該方案采用One Model架構(gòu),并在決策規(guī)劃單元引入了VLM視覺語言大模型和
    的頭像 發(fā)表于 12-03 12:30 ?777次閱讀
    黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>算法參考模型公布

    爆火的如何加速智駕落地?

    編者語:「智駕最前沿」微信公眾號(hào)后臺(tái)回復(fù):C-0551,獲取本文參考報(bào)告:《智能汽車技術(shù)研究報(bào)告》pdf下載方式。 “
    的頭像 發(fā)表于 11-26 13:17 ?955次閱讀
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地?

    智己汽車“”智駕方案推出,老司機(jī)真的會(huì)被取代嗎?

    隨著智能駕駛技術(shù)的發(fā)展,行業(yè)已經(jīng)從早期基于簡(jiǎn)單規(guī)則和模塊化邏輯的自動(dòng)駕駛,逐步邁向依托深度學(xué)習(xí)的高復(fù)雜度智能駕駛解決方案,各車企也緊跟潮流,先后宣布了自己的智駕
    的頭像 發(fā)表于 10-30 09:47 ?709次閱讀
    智己汽車“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕<b class='flag-5'>方案</b>推出,老司機(jī)真的會(huì)被取代嗎?

    Mobileye自動(dòng)駕駛解決方案的深度解析

    強(qiáng)大的技術(shù)優(yōu)勢(shì)。 Mobileye的解決方案概述 1.1 什么是
    的頭像 發(fā)表于 10-17 09:35 ?758次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛<b class='flag-5'>解決方案</b>的深度解析

    測(cè)試用例怎么寫

    編寫測(cè)試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關(guān)鍵步驟。以下是個(gè)詳細(xì)的指南,介紹如何編寫
    的頭像 發(fā)表于 09-20 10:29 ?884次閱讀

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設(shè)備,提供了完整的解決方案,從連接和安全解決方案到處理器和軟件,應(yīng)有盡有,為Matter標(biāo)準(zhǔn)的規(guī)模化商用提供有
    的頭像 發(fā)表于 08-26 18:04 ?2876次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>

    實(shí)現(xiàn)自動(dòng)駕駛,唯有

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標(biāo)都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?1287次閱讀
    實(shí)現(xiàn)自動(dòng)駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    電阻的電流和電壓是如何區(qū)分的

    電阻,又稱為四測(cè)量電阻或凱爾文電阻,是一種特殊的電阻器,主要用于精密測(cè)量電路中的電阻值。四電阻的電流和電壓
    的頭像 發(fā)表于 08-05 10:48 ?2130次閱讀

    比較器輸入和輸出的關(guān)系

    比較器是一種電子設(shè)備,用于比較兩個(gè)電壓或電流信號(hào)的大小。比較器的輸入和輸出之間的關(guān)系是其核心功能之。 比較器的基本原理 比較器是一種
    的頭像 發(fā)表于 07-10 10:39 ?3664次閱讀

    廣汽豐田攜手Momenta推出全場(chǎng)景智能駕駛方案

    在近日舉行的廣汽豐田科技開放日上,場(chǎng)引領(lǐng)未來的智能駕駛技術(shù)盛宴吸引了全球目光。廣汽豐田攜手國內(nèi)領(lǐng)先的自動(dòng)駕駛解決方案提供商Momenta,共同推出了
    的頭像 發(fā)表于 06-29 17:36 ?1918次閱讀