女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種金字塔注意力網絡,用于處理圖像語義分割問題

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-06-05 09:21 ? 次閱讀

近日,北京理工大學、曠視科技、北京大學聯手,發表了一篇名為 Pyramid Attention Network for Semantic Segmentation 的論文。在這篇論文中,四位研究者提出了一種金字塔注意力網絡(Pyramid Attention Network,PAN),利用圖像全局的上下文信息來解決語義分割問題。

與大多數現有研究利用復雜的擴張卷積 (dilated convolution) 并人為地設計解碼器網絡不同的是,論文作者將注意力機制和空間金字塔(spatial pyramid)相結合,來提取準確而密集的特征并獲取像素標簽。

具體來說,他們引入了一個特征金字塔注意力模塊 (Feature Pyramid Attention module),在高層的輸出上施加空間金字塔注意力結構,并結合全局池化策略來學習更好的特征表征。此外,利用每個解碼器層中的全局注意力上采樣模塊 (Global Attention Upsample module) 得到的全局上下文特征信息,作為低級別特征的指導,以此來篩選不同類別的定位細節。

論文作者表示,他們提出的方法在 PASCAL VOC 2012 數據集上實現了當前最佳的性能。而且無需經過 COCO 數據集的預訓練過程,他們的模型在 PASCAL VOC 2012 和 Cityscapes 基準測試中能夠實現了 84.0% mIoU。

▌引言

隨著卷積神經網絡 (CNN) 的發展,層次特征的豐富性及端到端的訓練框架可用性,逐像素(pixel-wise)的語義分割問題的研究取得了顯著的進步。但是,現有的研究對于高維度特征表征的編碼效果仍不理想,導致原始場景中上下文像素的空間分辨率遭受損失。

如圖1所示,全卷積神經網絡 (Full Convolutional Network,FCN) 缺乏對場景中小部件的預測能力,圖中第一排自行車的手柄消失了,而第二排中的羊被誤認為牛。這對語義分割任務提出了挑戰。首先是多尺度目標的存在會加大語義分割任務中類別分類的困難。為了解決這個問題,PSPNet 或 DeepLab 系統提出空間金字塔結構,旨在不同的網格尺度或擴張率下 (稱之為空間金字塔池化,ASPP),融合多尺度的特征信息。在 ASPP 模塊中,擴張卷積是一種稀疏計算,這可能會導致產生網格偽像 (grid artifacts)。而 PSPNet 中提出的金字塔池化模塊則可能會丟失像素級別的定位信息。受 SENet 和 Parsenet 的啟發,我們嘗試從 CNN 的高層次特征中提取出準確的像素級注意力特征。圖1展示了我們提出的特征金字塔注意力模塊 (Feature Pyramid Attention,FPA)的能力,它能夠擴大感受野的范圍并有效地實現小目標的分類。

圖1:VOC 數據集的可視化結果

上圖中,正如我們所看到的,FCN 模型難以對小目標和細節進行預測。在第一排中自行車的手柄在預測中丟失了,而第二排中出現了錯誤的動物類別預測。我們的特征金字塔注意力模塊 (FPA) 和全局注意力上采樣 (GAU) 模塊旨在擴大目標感受野并有效地恢復像素的定位細節。

另一個問題是,高層次的特征在對類別進行準確分類時非常有效,但在重組原始分辨率的二類預測問題方面比較薄弱。一些 U 型網絡,如 SegNet,Refinenet 以及 Large Kernel Matters 能夠在復雜的解碼器模塊中使用低層次信息來幫助高層次特征恢復圖像細節。但是,這些方法都很耗時,運行效率不高。解決這個問題,我們提出了一種稱為 Global Attention Upsample (GAU) 方法,這是一個有效的解碼器模塊,在不需要耗費過多計算資源的情況下,它可以提取高層次特征的全局上下文信息,作為低層次特征的加權計算的指導。

總的來說,我們的工作主要有以下三個貢獻:

1. 我們提出一個特征金字塔注意模塊,可以在基于 FCN 的像素預測框架中嵌入不同尺度的上下文特征信息。

2. 我們開發了一個高效的解碼器模塊 Global Attention Upsample,用于處理圖像的語義分割問題。

3. 結合特征金字塔注意力模塊和全局注意力上采樣模塊,我們的金字塔注意力網絡在 VOC2012 和 cityscapes 的測試基準中取得了當前最佳的性能。

▌模型方法

特征金字塔注意力模塊 FPA

基于以上觀察,我們提出了特征金字塔注意力模塊 (FPA),該模塊能夠融合來自 U 型網絡 (如特征金字塔網絡 FPN) 所提取的三種不同尺度的金字塔特征。為了更好地提取不同尺度下金字塔特征的上下文信息,我們分別在金字塔結構中使用 3×3, 5×5, 7×7 的卷積核。由于高層次特征圖的分辨率較小,因此我們使用較大的內核并不會帶來太多的計算負擔。隨后,金字塔結構逐步集成不同尺度下的特征信息,這樣可以更準確地結合相鄰尺度的上下文特征。然后,經過 1×1 卷積處理后,由 CNN 所提取的原始特征通過金字塔注意力特征進行逐像素相乘。此外,我們還引入了全局池化分支來聯結輸出的特征,這將進一步提高 FPA 模塊的性能。整體的模塊結構如下圖 2 所示。得益于空間金字塔結構,FPA 模塊可以融合不同尺度的上下文信息,同時還能為高層次的特征圖提供更好的像素級注意力。

圖2:特征金字塔注意力模塊結構

上圖中,(a) 空間金字塔池結構。(b) 特征金字塔注意力模塊。 '4×4,8×8,16×16,32×32' 分別代表特征映射的不同分辨率。虛線框表示全局池化分支。藍色和紅色的線條分別代表下采樣和上采樣運算符。

全局注意力上采樣模塊 GAU

我們提出的全局注意力上采樣模塊 (Global Attention Upsample,GAU),通過全局池化過程將全局上下文信息作為低層特征的指導,來選擇類別的定位細節。具體地說,我們對低層次特征執行 3×3 的卷積操作,以減少 CNN 特征圖的通道數。從高層次特征生成的全局上下文信息依次經過 1×1 卷積、批量歸一化 (batch normalization) 和非線性變換操作 (nonlinearity),然后再與低層次特征相乘。最后,高層次特征與加權后的低層次特征相加并進行逐步的上采樣過程。我們的 GAU 模塊不僅能夠更有效地適應不同尺度下的特征映射,還能以簡單的方式為低層次的特征映射提供指導信息。模塊的結構示意圖如下圖3所示。

圖3:全局注意力上采樣模塊

金字塔注意力網絡 PAN

結合特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU),我們提出金字塔注意力網絡 (PAN),其結構示意圖如下圖 4 所示。我們使用在 ImageNet 數據集上預訓練好的 ResNet-101 模型,輔以擴張卷積策略來提取特征圖。具體地說,我們在 res5b 模塊上應用擴張率為 2 的擴張卷積,以便 ResNet 輸出的特征圖大小為原輸入圖像的1/16,這與 DeepLabv3+ 模型中的設置是一致的。正如 PSPNet 和 DUC 模型那樣,我們用三個 3×3 卷積層來取代原 ResNet-101 模型中的 7×7 卷積。此外,我們使用 FPA 模塊來收集 ResNet 的輸出中密集的像素級注意力信息。結合全局的上下文信息,經 GAU 模塊后,生成最終的預測圖。

圖4:金字塔注意力網絡結構

上圖中,我們使用 ResNet-101 模型來提取密集的特征。然后,我們分別執行 FPA 模塊和 GAU 模塊進行準確的像素預測并獲取目標定位的細節。藍線和紅線分別代表下采樣和上采樣運算符。

我們將 FPA 模塊視為編碼器和解碼器結構之間的中心模塊。即使沒有全局注意上采樣模塊,FPA 模塊也能夠進行足夠準確的像素級預測和類別分類。在實現 FPA 模塊后,我們將 GAU 模塊視為一種快速有效的解碼器結構,它使用高層次的特征來指導低層次的信息,并將二者結合起來。

▌實驗結果

我們在 PASCAL VOC2012 和 cityscapes 數據集上分別評估了我們的方法。

Ablation Experiments

FPA 模塊

我們分別對池化類型、金字塔結構、卷積核大小、全局池化四種設置進行了Ablation Experiments分析,結果如下:其中 AVE 表示平均池化策略,MAX 表示最大池化,C333 代表全部使用 3×3 的卷積核,C357 表示所使用的卷積核分別為 3×3、5×5 和 7×7,GP 代表全局池化分支,SE 表示使用 SENet 注意力模塊。

池化類型:在這項工作中,我們發現 AVE 的性能要優于 MAX:對于 3×3 的卷積核設置,AVE 的性能能達到 77.54%,優于 MAX 所取得的77.13%。

金字塔結構:我們的模型在驗證集上能取得 72.60% 的 mIoU。此外,我們使用 C333 和 AVE 時,模型的性能能夠從 72.6% 提升至 77.54%。我們還使用 SENet 注意力模塊來取代金字塔結構,進一步對比評估二者的性能。實驗結果如下表1所示,與 SENet 注意力模塊相比,C333 和 AVE 設置能將性能提高了近1.8%。

卷積核大小:對于使用平均池化的金字塔結構,我們使用 C357 取代 C333 卷積核設置,金字塔結構中特征映射的分辨率為 16×16,8×8,4×4。實驗結果表明,模型性能能夠從 77.54% 提高至 78.19%。

全局池化:我們進一步在金字塔結構中添加全局池化分支以提高模型性能。實驗結果表明,在最佳設置下模型能夠取得 78.37 的 mIoU 和 95.03% 的 Pixel Acc。

表1:不同設置下 FPA 模塊的性能

GAU 模塊

首先,我們評估 ResNet101+GAU 模型,然后我們將 FPA 和 GAU 模塊結合并在 VOC 2012 驗證集中評估我們的模型。 我們分別在三種不同的解碼器設置下評估模型:(1) 僅使用跳躍連接的低級特征而沒有全局上下文注意力分支。(2) 使用 1×1 卷積來減少 GAU 模塊中的低層次特征的通道數。(3) 用 3×3 卷積代替 1×1 卷積減少通道數。實驗結果如表2所示。

表2:不同解碼器設置下的模型性能

此外,我們還比較了ResNet101+GAU 模型、Global Convolution Network 和 Discriminate Feature Network,實驗結果如表3所示。

表3:我們模型與其他模型的比較結果

PASVAL VOC 2012 數據集

結合 FPA 模塊和 GAU 模塊的最佳設置,我們在 PASVAL VOC 2012 數據集上評估了我們的金字塔注意力網絡 (PAN)。實驗結果如表4、表5所示??梢钥吹剑琍AN 取得了84.0% mIoU,超過現有的所有方法。

表4:在 VOC 2012 數據集上模型的性能

表5:在 PASVAL VOC 2012 測試集上單類別的實驗結果

Cityscapes 數據集

Cityscapes 數據集包含 30 個類別,其中 19 個用于我們的模型訓練和評估。整個數據集 5000 個帶細粒度標注的圖像和 19998 個帶粗粒度標注的圖像。具體地說,我們將細粒度圖像分為訓練集、驗證集和測試集,分別有 2979、500 和 1525 張圖像。在訓練期間,我們沒有使用帶粗粒度標注的數據集,所使用的圖像尺寸為 768×768。同樣地,我們以 ResNet101 作為基礎模型,實驗結果如表6列出。

表6:Cityscapes 測試集上模型的性能

▌結論

在本文中,我們提出了一種金字塔注意力網絡,用于處理圖像語義分割問題。我們設計了特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU)。FPA 模塊能夠提供像素級注意力信息并通過金字塔結構來擴大感受野的范圍。GAU 模塊能夠利用高層次特征圖來指導低層次特征恢復圖像像素的定位。實驗結果表明,我們所提出的方法在 PASCAL VOC 2012 語義分割任務實現了當前最佳的性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1163

    瀏覽量

    41679
  • 神經網絡
    +關注

    關注

    42

    文章

    4806

    瀏覽量

    102724
  • 圖像
    +關注

    關注

    2

    文章

    1092

    瀏覽量

    41004

原文標題:北大、北理工、曠視聯手:用于圖像語義分割的金字塔注意力網絡

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    PCB工程師金字塔分級標準

    PCB工程師金字塔分級標準
    發表于 08-06 13:21

    自制for循環打印金字塔

    自制for循環打印金字塔
    發表于 09-18 08:46

    van-自然和醫學圖像的深度語義分割網絡結構

    覆蓋了圖像的全部、半和小部分。他們被融合為全局先驗信息;在c的最后部分將之前的金字塔特征映射與原始特征映射concate起來;在進行卷積,生成d中的最終預測圖??偨Y基于深度學習的圖像
    發表于 12-28 11:03

    van-自然和醫學圖像的深度語義分割網絡結構

    覆蓋了圖像的全部、半和小部分。他們被融合為全局先驗信息;在c的最后部分將之前的金字塔特征映射與原始特征映射concate起來;在進行卷積,生成d中的最終預測圖??偨Y基于深度學習的圖像
    發表于 12-28 11:06

    基于金字塔模型的地形網格裂縫消除算法

    本文針對基于多分辨金字塔模型繪制海量地形時的網格裂縫問題,提出了一種網格裂縫消除算法。該算法利用分裂標記表,結合金字塔模型本身分塊與多分辨率的特性,從整體上
    發表于 12-30 12:02 ?8次下載

    圖像金字塔和resize綜合示例_《OpenCV3編程入門》書本配套源代碼

    《OpenCV3編程入門》書本配套源代碼:圖像金字塔和resize綜合示例
    發表于 06-06 15:52 ?3次下載

    繪制金字塔程序實現

    用c語言編程繪制金字塔
    發表于 11-27 16:24 ?899次閱讀

    可控特性的金字塔變換

    本文設計了一種具有平移不變性、方向和尺度聯合可控特性的金字塔變換,稱為幾何變形可控金字塔變換(DPT)。此DPT從一種數值形式表示的方向可控金字塔
    發表于 12-14 16:41 ?4次下載
    可控特性的<b class='flag-5'>金字塔</b>變換

    基于梯度方向直方圖與高斯金字塔的車牌模糊漢字識別方法

    針對現有車牌識別方法中對模糊車牌識別率不高的問題,提出一種結合高斯金字塔與梯度方向直方圖(HOG)特征的車牌識別算法。利用金字塔模型多尺度表達的方法,首先對車牌模糊漢字圖像建立兩層高斯
    發表于 12-25 10:43 ?0次下載
    基于梯度方向直方圖與高斯<b class='flag-5'>金字塔</b>的車牌模糊漢字識別方法

    如何實現多聚焦圖像融合的拉普拉斯金字塔方法

    本文檔的主要內容詳細介紹的是如何實現多聚焦圖像融合的拉普拉斯金字塔方法。
    發表于 02-03 11:40 ?2次下載
    如何實現多聚焦<b class='flag-5'>圖像</b>融合的拉普拉斯<b class='flag-5'>金字塔</b>方法

    一種全新的遙感圖像描述生成方法

    方法通過軟意機制實現生成單詞與圖像特征之間的對齊關系。此外,針對遙感圖像分辨率較高、目標尺度變化較大的特點,還提出基于金字塔池化和通道
    發表于 04-20 11:21 ?2次下載
    <b class='flag-5'>一種</b>全新的遙感<b class='flag-5'>圖像</b>描述生成方法

    基于密集注意力網絡圖像自動分割算法

    網絡圖像自動分割算法。將編碼器-解碼器全卷積神經網絡的基礎結構與密集連接網絡相結合,以充分提取每
    發表于 05-24 15:45 ?11次下載

    基于密集層和注意力機制的快速場景語義分割方法

    針對傳統語義分割網絡速度慢、精度低的問題,提出一種基于密集層和注意力機制的快速場景語義
    發表于 05-24 15:48 ?6次下載

    基于金字塔的激光雷達和攝像頭深度融合網絡

    自動駕駛汽車的魯棒環境感知是項巨大的挑戰,這使得多傳感器配置與例如相機、激光雷達和雷達至關重要。在理解傳感器數據的過程中,3D 語義分割起著重要的作用。因此,本文提出了一種基于
    的頭像 發表于 10-09 15:24 ?2760次閱讀

    普通視覺Transformer(ViT)用于語義分割的能力

    本文探討了普通視覺Transformer(ViT)用于語義分割的能力,并提出了SegViT。以前基于ViT的分割網絡通常從ViT的輸出中學習
    的頭像 發表于 10-31 09:57 ?5706次閱讀