女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

何愷明等人再出重磅新作:分割任務的TensorMask框架

電子工程師 ? 來源:lp ? 2019-04-04 17:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

看到今天要給大家介紹的論文,也許現在大家已經非常熟悉 Ross Girshic、Piotr Dollár 還有我們的大神何愷明的三人組了。沒錯,今天這篇重磅新作還是他們的產出,營長感覺剛介紹他們的新作好像沒多久啊!想要追趕大神腳步,確實是不能懈怠啊!

不過這次一作是來自 FAIR 的陳鑫磊博士,雖然和三人組合比起來,一作陳鑫磊還沒有那么被大家所熟知,不過其實力也是不容小覷的(畢竟后面跟著三個實力響當當的人物)。營長在陳鑫磊的個人主頁上看到他的學習經歷和研究成果,也是忍不住點贊。陳鑫磊在浙江大學國家重點實驗室 CAD&CG實驗室學習時,師從蔡登教授,隨后在 CMU 攻讀博士學位,現任職于 FAIR,畢業前曾在 Google Cloud 李飛飛和李佳組內實習。在博士研究期間,每年和導師 Abhinav Gupta 教授都有論文發表在 AAAI、CVPR、ECCV、ICCV 等頂會上,考慮篇幅,營長就從每年成果中選一篇列舉出來,大家可以前往陳鑫磊的個人主頁中可以看到全部作品。

2013-2018 年間的主要作品:

[1]、Xinlei Chen, Li-Jia Li, Li Fei-Fei, Abhinav Gupta.Iterative Visual Reasoning Beyond Convolutions. The 31st IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.Spotlight

[2]、Xinlei Chen, Abhinav Gupta.Spatial Memory for Context Reasoning in Object Detection. The 15th International Conference on Computer Vision(ICCV), 2017

[3]、Gunnar A. Sigurdsson,Xinlei Chen, Abhinav Gupta.Learning Visual Storylines with Skipping Recurrent Neural Networks. The 14th European Conference on Computer Vision(ECCV), 2016

[4]、Xinlei Chen, Abhinav Gupta.Webly Supervised Learning of Convolutional Networks. The 15th International Conference on Computer Vision(ICCV), 2015.Oral

[5]、Xinlei Chen, C. Lawrence Zitnick.Mind's Eye: A Recurrent Visual Representation for Image Caption Generation. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015

[6]、Xinlei Chen, Alan Ritter, Abhinav Gupta, Tom Mitchell.Sense Discovery via Co-Clustering on Images and Text. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015.

[7]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.Enriching Visual Knowledge Bases via Object Discovery and Segmentation. The 27th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014

[8]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.NEIL: Extracting Visual Knowledge from Web Data. The 14th International Conference on Computer Vision(ICCV), 2013.Oral.

這幾個人從出道至今,都有非常多的佳作,出產率也非常高,最近大家還在重談去年三人組合的論文《Rethinking ImageNet Pre-training》,今天就有了這篇在密集掩碼預測新突破:《TensorMask: A Foundation for Dense Object Segmentation》,大神們簡直就是快要承包整個 CV 界了!

“CV男團”四人的個人主頁(一到四作的順序):

http://xinleic.xyz/#

http://www.rossgirshick.info/

http://kaiminghe.com/

http://pdollar.github.io/

接下來,營長就為大家帶來“CV男團”這篇最新力作的初解讀,因為論文中涉及很多與 TensorMask 框架相關的專業術語,函數定義等,還需要大家下來細細研究,感興趣的同學可以從下面的論文地址里下載論文進一步學習,也歡迎大家在后臺給我們留言,發表你的感想。

論文解讀

摘要

在目標檢測任務中,采用滑窗方式生成目標的檢測框是一種非常常用的方法。而在實例分割任務中,比較主流的圖像分割方法是首先檢測目標邊界框,然后進行裁剪和目標分割,如 Mask RCNN。在這篇工作中,我們研究了密集滑窗實例分割(dense sliding-window instance segmentation)的模式,發現與其他的密集預測任務如語義分割,目標檢測不同,實例分割滑窗在每個空間位置的輸出具有自己空間維度的幾何結構。為了形式化這一點,我們提出了一個通用的框架 TensorMask 來獲得這種幾何結構。

我們通過張量視圖展示了相較于忽略這種結構的 baseline 方法,它可以有一個大的效果提升,甚至比肩于 Mask R-CNN。這樣的實驗結果足以說明TensorMask 為密集掩碼預測任務提供了一個新的理解方向,并可以作為該領域新的基礎方法。

引言

滑窗范式(在一張圖的每個滑動窗口里面去尋找目標)是視覺任務里面最早且非常成功的方法,并且可以很自然的和卷積網絡聯系起來。雖然像 RCNN 系列方法需要在滑窗的方法上再進行精修,但是像 SSD、RetinaNet 的方法就是直接利用滑窗預測。在目標檢測里面非常受歡迎的方法,在實例分割任務中卻沒得到足夠的關注。因此本文的工作就是來填補該缺失。本文主要的 insight 就是定義密集掩碼的表示方式,并且在神經網絡中有效的實現它。與低維、尺度無關的檢測框不同,分割掩碼需要一種更具有結構化的表示方式。因此,本文在空域上,采用結構化的 4 維張量定義了掩碼的表示方式,并提出了一個基于滑窗方法的密集實例分割框架——TensorMask。在 4 維張量(V,U,H,W)中,H 和 W 表示目標的位置,而 V 和 U 表示相關掩碼的位置。與僅直接在通道上加一個掩碼分支的方法不同,這種方法是具有幾何意義的,并且可以直接在(V,U)張量上進行坐標轉換,尺度縮放等操作。在 TensorMask 框架中,作者還順手開發了一個張量尺度金字塔(tensor bipyramid),用于 4 維的尺度縮放。如下公式所示,其中 K 就是尺度。

? ? ?

掩碼的張量表示

TensorMask 框架的主要想法就是利用結構化的高維張量去表示密集的滑動窗口。在理解這樣的一個框架時,需要了解幾個重要的概念。

單位長度(Unit of Length):在不同的軸和尺度上有不同的單位長度,且 HW 和 VU 的單位長度可以不相等。

? ? ?和 ? ? ? ? ? ? ?分別表示其單位長度。

自然表示(Natural Representation):在點(y,x)處的滑窗內,某點的掩碼值表示,如下截圖所示,其中 alpha 表示 VU 和 HW 的單位長度比率。

對齊表示(Aligned Representation):由于單位長度中 stride 的存在,自然表示存在著像素偏移的問題,因此這里有一個同 ROIAlign 相似的想法,需要從張量的角度定義一個像素級的表示。

坐標轉換:用于自然表示和對齊表示間的轉換,論文給出了兩種情況下的轉換公式,一種是簡化版的( ? ? ?),一種是一般版的(就是任意的單位長度)。

上采樣轉換(Upscaling Transformation):下圖就是上采樣轉換的操作集合。實驗證明它可以在不增加通道數的情況下,有效的生成高分辨率的掩碼。

張量尺度金字塔(Tensor Bipyramid):由于掩碼存在尺度問題,它需要隨目標的大小而進行縮放,為了保持恒定的分辨率密度,提出了這種基于尺度來調整掩碼像素數量的方法。

TensorMask結構

基于 TensorMask 表示的模型,有一個采用滑窗的掩碼預測分支和一個類似于檢測框回歸的分類分支。該結構不需要增加檢測框的分支。掩碼預測分支可以采用卷積的 backbone,比如 ResNet50。因此,論文提出了多個基礎(baseline)分支和張量尺度金字塔分支,幫助使用者快速上手 TensorMask。需要指出的是,張量尺度金字塔分支是最有效的一個模型。在訓練時,作者采用 DeepMask 來幫助標記數據,以及 focal loss 等等。

實驗

為了說明各分支或者操作的作用,論文做了大量的消融實驗來進行論證。具體結果見下圖表格的數據以及與 Mask-RCNN 可視化的對比。實驗結果證明,TensorMask 能夠定性定量的比肩 MaskR-CNN。

該項工作將滑窗方法與實例分割任務直接聯系了起來,能夠幫助該領域的研究者對實例分割有新的理解,期待代碼早日開源。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103643
  • 框架
    +關注

    關注

    0

    文章

    404

    瀏覽量

    17898
  • 開源
    +關注

    關注

    3

    文章

    3690

    瀏覽量

    43836

原文標題:何愷明等人提TensorMask框架:比肩Mask R-CNN,4D張量預測新突破

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【正點原子STM32MP257開發板試用】基于 DeepLab 模型的圖像分割

    是谷歌團隊提出的一種用于語義分割的深度學習模型,屬于 DeepLab 系列模型的第三代版本。它在圖像語義分割任務中表現優異,能夠高效地捕獲圖像的多尺度上下文信息,并生成高分辨率的分割
    發表于 06-21 21:11

    第三屆大會回顧第3期 | FFRT并發框架在OpenHarmony中的設計與實踐

    演講嘉賓 | 黃佑鐘 回顧整理 | 廖 ? 濤 排版校對 | 宋夕 嘉賓介紹 開發框架分論壇? 黃佑鐘 ,海思Kirin解決方案并行與異構計算專家。 正文內容 多任務并發能更有效地利用CPU資源
    的頭像 發表于 06-21 16:53 ?255次閱讀
    第三屆大會回顧第3期 | FFRT并發<b class='flag-5'>框架</b>在OpenHarmony中的設計與實踐

    科技發布勃朗峰畫質引擎UF4

    作為亞太地區專業視聽領域的年度盛會Infocomm China始終是技術風向的標桿,展會期間,洲科技發布“勃朗峰畫質引擎”——UF4,重磅亮相EB1-01展位,帶來一場顛覆視覺體驗的科技盛宴。
    的頭像 發表于 04-19 15:52 ?720次閱讀

    百度飛槳框架3.0正式版發布

    、推理等任務都離不開深度學習框架的優化與支撐。 飛槳框架3.0,從設計理念上實現了從底層硬件適配到頂層開發體驗的全面進化,在訓練效率、性能、兼容性等關鍵指標上建立了新標桿。 其中, “動靜統一自動并行”、“大模型訓推一體”、“科
    的頭像 發表于 04-02 19:03 ?725次閱讀
    百度飛槳<b class='flag-5'>框架</b>3.0正式版發布

    BEVFusion —面向自動駕駛的多任務多傳感器高效融合框架技術詳解

    BEVFusion 技術詳解總結——面向自動駕駛的多任務多傳感器高效融合框架原始論文:*附件:bevfusion.pdf介紹(Introduction)背景:自動駕駛系統配備了多種傳感器,提供互補
    的頭像 發表于 02-26 20:33 ?3870次閱讀
    BEVFusion —面向自動駕駛的多<b class='flag-5'>任務</b>多傳感器高效融合<b class='flag-5'>框架</b>技術詳解

    德賽電池榮膺仲高新區三項榮譽

    近日,仲高新區舉行高質量發展大會暨優秀企業授牌活動,旨在表彰2024年度為仲高新區經濟發展作出杰出貢獻的優秀企業,激勵更多企業創新發展,共同推動區域經濟的繁榮與進步。區領導、園區、鎮(街道)領導、區直相關部門領導以及各企業代表齊聚一堂,共同見證這一榮耀時刻。
    的頭像 發表于 02-12 09:27 ?482次閱讀

    惠州隆利榮獲2024年仲高新區優秀企業經濟突出貢獻獎

    近日,在仲高新區高質量發展大會暨優秀企業授牌活動中,公司全資子公司惠州市隆利科技發展有限公司,榮獲2024年仲高新區優秀企業經濟突出貢獻獎。
    的頭像 發表于 02-07 11:30 ?672次閱讀

    YOLOv8中的損失函數解析

    YOLO長期以來一直是目標檢測任務的首選模型之一。它既快速又準確。此外,其API簡潔易用。運行訓練或推斷作業所需的代碼行數有限。在2023年下半年,YOLOv8在框架中引入了姿態估計后,該框架現在支持最多四個
    的頭像 發表于 11-05 17:15 ?3921次閱讀
    YOLOv8中的損失函數解析

    淺談分割接地層的利弊

    如果分割接地層并且線路穿過分割線(如圖1所示)那么電流返回通路在哪里呢?假設兩個層在某處連接(通過在一個單獨點),則返回電流必在該大型環路內流動。大型環路內的高頻電流產生輻射和高接地電感。大型環路內的低電平模擬電流易受干擾的影響。
    的頭像 發表于 10-30 10:09 ?608次閱讀
    淺談<b class='flag-5'>分割</b>接地層的利弊

    語義分割25種損失函數綜述和展望

    本綜述提供了對25種用于圖像分割的損失函數的全面且統一的回顧。我們提供了一種新穎的分類法,并詳細審查了這些損失函數如何在圖像分割中被定制和利用,強調了它們的重要特征和應用,并進行了系統的分類。摘要
    的頭像 發表于 10-22 08:04 ?1621次閱讀
    語義<b class='flag-5'>分割</b>25種損失函數綜述和展望

    畫面分割器怎么調試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個視頻信號分割成多個小畫面的設備。這種設備廣泛應用于監控系統、視頻會議、多畫面顯示等場景。調試畫面分割器是一個技術性很強的工作,需
    的頭像 發表于 10-17 09:32 ?1083次閱讀

    畫面分割器怎么連接

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將多個視頻信號源分割成單個畫面或多個畫面顯示在單個監視器上的設備。這種設備廣泛應用于監控系統、視頻會議、多媒體展示等領域。 一、畫面分割
    的頭像 發表于 10-17 09:29 ?991次閱讀

    畫面分割器和視頻分配器有區別

    畫面分割器和視頻分配器是兩種不同的視頻處理設備,它們在視頻監控系統中扮演著不同的角色。 1. 畫面分割器 畫面分割器,又稱為視頻分割器或多畫面處理器,是一種可以將多個視頻信號合并到一個
    的頭像 發表于 10-17 09:27 ?1500次閱讀

    畫面分割器有幾路主輸出

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將一個視頻信號分割成多個獨立視頻畫面的設備。這種設備廣泛應用于監控系統、視頻會議、多媒體展示等領域,能夠將多個攝像頭的信號整合到一個顯示設備上
    的頭像 發表于 10-17 09:24 ?864次閱讀

    畫面分割器的主要功能

    畫面分割器,也稱為視頻分割器或多畫面分割器,是一種用于將多個視頻信號整合到一個顯示器上顯示的設備。這種設備廣泛應用于監控系統、視頻會議、指揮中心等場合,以便于用戶同時監控多個視頻源。 畫面分割
    的頭像 發表于 10-17 09:22 ?1919次閱讀