女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Microsoft最新研究提基于關系網絡的視覺建模

WpOh_rgznai100 ? 來源:YXQ ? 2019-07-19 13:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導語:最近兩年,自注意力機制、圖和關系網絡等模型在NLP領域刮起了一陣旋風,基于這些模型的Transformer、BERT、MASS等框架已逐漸成為NLP的主流方法。這些模型在計算機視覺領域是否能同樣有用呢?近日,微軟亞洲研究院視覺計算組主管研究員胡瀚受邀參加VALSE Webinar,分享了他們最近的一些相關工作。他們的研究以及同期的一些其它工作表明這些模型也能廣泛地用于視覺基本元素之間關系的建模,包括物體與物體間、物體與像素間、以及像素與像素間的關系,特別是在建模像素與像素間關系上,既能與卷積操作形成互補,甚至有望能取代卷積操作,實現最基本的圖像特征提取。

大腦和機器智能都應是通用學習機器

首先,我們從一個很有意思的實驗講起,這個實驗將老鼠大腦里的聽覺皮層接到視覺的輸入上,經過一段時間訓練后,發現聽覺皮層也能實現視覺的感知任務。這個實驗引起我們思考一個問題,機器智能是否同樣能實現結構和學習的通用性呢?

目前的機器學習范式基本是統一的,一般遵循收集數據、進行標注、定義網絡結構、以及利用方向傳播算法訓練網絡權值的過程,但是不同任務里用到的基本模型卻是多樣的。當前計算機視覺主要被卷積網絡所主導,而自然語言處理則經歷了LSTM、GRU、卷積以及自注意等多種模型階段。那是否有一種基本模型,能解決視覺、NLP、圖結構數據感知、甚至推理等不同智能任務呢?

目前最通用的模型:關系和圖網絡

目前來看,關系網絡是最接近這一目標的一種模型。在解釋這個模型之前,我們首先對一些名詞作一些澄清,包括圖神經網絡以及自注意力機制。

圖1:關系網絡架構

圖神經網絡概念上更通用一些,包括了對節點、對邊、對全局屬性的特征表示,而自注意模型則是圖神經網絡的一種特殊實現,里面只對節點進行了特征表示,而邊(也就是關系)則通過key嵌入和query嵌入后的內積計算得到,是一種圖為全連接時(所有節點之間都有連接)非常經濟的模型,但表達能力又足夠強,因為任何事物和概念之間都可以通過不同的投影后(key和query)的特征來使得兩者可比。

注意力機制里key和query的集合往往不一致,例如分別是單詞集合和圖像塊集合,或者分別是不同語言的句子,而自注意力機制則是key和query的對象為同一集合的情況。最近在NLP領域的革命,主要在于發現了“自”注意力機制在編碼同一句子單詞與單詞之間關系上的價值。而關系網絡和圖神經網絡還有自注意力機制從實現上是同樣的,字面上更關注對于節點與節點間聯系的建模。

將關系網絡應用于基本視覺建模

考慮到關系網絡在圖結構數據和NLP序列數據建模上取得了巨大成功,很自然的一個問題是這一建模方法是否也適用于視覺里的建模。計算機視覺里面主要涉及兩個層次的基本元素:一個是物體;一個是像素。于是我們研究了物體和物體、物體和像素以及像素和像素的關系建模問題。

圖2:將關系網絡應用于基本視覺建模

物體與物體關系建模,第一個完全端到端的物體檢測器

物體是很多視覺感知任務的核心,在深度學習時代,單個物體的感知有了很好的進展,但如何去建模物體與物體間的關系卻一直沒有很好的工具。我們在去年CVPR上提出了一個能即插即用的物體關系模塊(Object Relation Module),簡稱ORM。物體關系模塊的建模基本上是一種自注意力機制的應用,和基本的自注意力機制的主要不同在于添加了相對幾何項,我們發現這一項對于視覺問題來說很重要,物體之間的相對位置關系能幫助對于物體本身的感知。這一模塊可以很方便地嵌入到現有的物體檢測框架(圖3所示是目前應用最廣泛的Faster R-CNN算法),去改進頭部(head)網絡,以及替換手工的去重模塊,也就是目前通常采用的非極大化抑制方法(NMS)。其中替換前者使得物體不是獨立識別的,而是一起識別的,而替換后者則幫助實現了第一個完全的端到端物體檢測系統。我們還將物體關系模塊推廣到時空維度,去解決多目標跟蹤問題。

圖3:第一個完全端到端的物體檢測器

物體與像素關系建模

物體與像素關系建模的一個最直接的應用是從圖像特征里提取物體區域特征,此前最常用的算法是RoIPooling或者RoIAlign,我們用關系網絡實現了自適應地從圖像特征里提取區域特征的方法,并證明這一方法比RoIAlign在物體檢測的標準數據集COCO上要好1 mAP左右。

像素與像素關系建模,替代卷積的局部關系網絡及全局上下文網絡

像素與像素關系的建模可以用來實現最基本的圖像局部特征提取,也可以用來提取圖像的全局信息,從而作為基本圖像特征提取網絡(例如卷積神經網絡)的補充。

1)替代卷積神經網絡的局部關系網絡

現在的基本圖像特征提取方法幾乎都采用卷積算子,但卷積本質上是一個模板匹配(template matching)算子,效率是偏低的,例如圖4中的三個鳥頭,很簡單的變化,卻需要三個通道來去建模它。我們提出了一個局部關系層(local relation layer)來實現更高效的圖像特征提取,它本質上還是基于關系網絡。在應用到基本的像素與像素關系建模問題時,我們發現如下幾個細節很重要:一是關系的建模要限制在局部內,只有限制在局部才能構造信息瓶頸,才能把圖像里的模式學出來;二是需要引入可學習的幾何先驗項,這一項的引入也是注意到目前最流行的卷積算子所采用的模板匹配過程就是嚴重依賴相對位置關系的建模方法;三是采用標量的key和query,在標準的關系網絡中,key和query通常是用向量表示的,采用標量的key和query能節省很多參數和計算,也因此能在有限計算量情況下建模多種關系。

與卷積相比,局部關系層概念上最大的不同是它是在根據兩個像素自己的特征來計算像素間的可組合性,而不是用一個全局的模板來作匹配。圖4右上還顯示了學到的部分key和query圖(標量),從左到右分別是由淺到深的層,發現淺層學到了邊緣和內部的概念,深層學到了不同物體的概念。圖4右下顯示了學到的幾何先驗,從上到下分別是由淺到深的層,發現在淺層里幾何先驗比較集中和稀疏,暗示幾何先驗起很大作用,而深層里幾何先驗比較模糊,暗示key和query起更主要的作用。

圖4:局部關系層

局部關系層可以用來替換卷積網絡里面所有的空間卷積層,包括所有的3x3的卷積,以及一開始的7x7卷積,于是得到了一個完全沒有空間卷積層的網絡,我們稱為局部關系網絡(LR-Net),圖5左側是用局部關系層替代ResNet-50網絡中所有卷積層的例子,在相同計算量情況下,LR-Net相比于ResNet擁有更少的參數。圖5右側是26層LR-Net與26層帶標準卷積或depthwise卷積的ResNet在ImageNet分類上top-1準確率的比較。可以看出,在不包含任何幾何先驗的情況下,LR-Net已與ResNet相匹敵,而在添加幾何先驗項后,與標準卷積的ResNet-50相比能取得高2.7%的性能。此外,局部關系網絡在鄰域為7x7時表現最好,而對應的標準ResNet網絡則在3x3和5x5時表現更好,這表明局部關系網絡相比普通基于卷積算子的ResNet網絡能建模更大范圍的像素關系。

圖5:局部關系層替代ResNet-50網絡中所有卷積層(左);26層的LR-Net與ResNet相同運算量下在ImageNet分類上top-1準確率的對比(右)

2) 非局部網絡遇上SE-Net,更高效的全局上下文網絡

非局部關系網絡在多個視覺感知任務上取得了非常好的效果,學界通常認為這得益于非局部網絡對于遠距離像素與像素間關系的建模。但我們在可視化學到的像素與像素間相似度時發現一個很不一樣的現象,對于不同的query像素點(圖中紅色點),不管query像素點在前景、或是草地、或是天空中,它們和key像素的相似度形成的attention map幾乎一模一樣。

圖6:不同query像素點對應的attention map

很自然地,如果我們顯示地讓所有query像素點共享同一個attention map,是否會降低performance呢?我們實驗發現在一些重要的感知任務,例如圖像分類、物體檢測、動作識別中,這一答案是否定的。也就是說,即使讓所有query像素點共享同一個attention map,也不會降低識別的精度,而相應的計算則大幅降低,即使添加到ResNet網絡中所有的residual block后也不怎么增加網絡整體的計算量。

進一步可以發現這樣一種簡化的非局部網絡(SNL)和2017年ImageNet比賽的冠軍算法SE-Net結構很相似,都是首先建模全局上下文信息,把HxW的圖像特征集合起來,生成一個全局的向量,第二步都是對這一全局的向量作特征變換,最后是變換后的全局特征和圖像每個位置原來的特征融合起來,于是可以抽象出來一個通用的建模全局上下文信息的框架。進一步的,在每一步里面選擇最好的實現,于是可以得到全局上下文模塊(Global Context Block),這一網絡可以在COCO物體檢測,ImageNet圖像分類,和動作識別任務中均取得比非局部網絡和SE-Net更優的準確率,而計算量則保持基本不變或者低于非局部網絡和SE-Net。

圖7:通用的建模全局上下文信息的框架

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6683

    瀏覽量

    105637
  • 神經網絡
    +關注

    關注

    42

    文章

    4813

    瀏覽量

    103380

原文標題:有望替代卷積神經網絡?微軟最新研究提基于關系網絡的視覺建模

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    無刷雙饋異步電機潮流建模和收斂性研究

    研究.pdf 【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容,謝謝!
    發表于 06-25 13:12

    無刷電機小波神經網絡轉子位置檢測方法的研究

    摘要:論文通過對無刷電機數學模型的推導,得出轉角:與三相相電壓之間存在映射關系,因此構建了一個以三相相電壓為輸人,轉角為輸出的小波神經網絡來實現轉角預測,并采用改進遺傳算法來訓練網絡結構與參數,借助
    發表于 06-25 13:06

    索尼FCB-ER8530:三維建模視覺感知的跨界融合

    的“視覺基石”? 三維建模依賴高精度視覺數據實現虛擬場景重構,而索尼FCB-ER8530的4K分辨率(3840×2160)與20倍光學變焦能力,為建模提供毫米級細節捕捉能力。例如,在三
    的頭像 發表于 05-19 17:30 ?189次閱讀

    車用鋰離子電池機理建模與并聯模組不一致性研究

    車用鋰離子電池機理建模與并聯模組不一致性研究
    發表于 05-16 21:02

    BP神經網絡與深度學習的關系

    BP神經網絡與深度學習之間存在著密切的關系,以下是對它們之間關系的介紹: 一、BP神經網絡的基本概念 BP神經網絡,即反向傳播神經
    的頭像 發表于 02-12 15:15 ?828次閱讀

    ANN神經網絡——器件建模

    隨著半導體行業的新材料、新工藝、新器件的不斷發展,人工神經網絡作為一種替代方法已經被引入器件建模領域。本文介紹了ANN神經網絡建模的起源、優勢、實現方式和應用場景。 ? 隨著半導體行業
    的頭像 發表于 01-06 13:41 ?955次閱讀
    ANN神經<b class='flag-5'>網絡</b>——器件<b class='flag-5'>建模</b>

    Splashtop 加入 Microsoft 智能安全協會

    ,他們將其解決方案與Microsoft安全技術集成,以更好地保護我們共同的客戶免受日益增長的網絡威脅。Splashtop用戶多達數百萬,可幫助企業在混合和遠程辦公
    的頭像 發表于 09-28 08:08 ?434次閱讀
    Splashtop 加入 <b class='flag-5'>Microsoft</b> 智能安全協會

    高速PCB信號和電源完整性問題的建模方法研究

    高速PCB信號和電源完整性問題的建模方法研究
    發表于 09-21 14:13 ?1次下載

    電源分配網絡分析及電容器精確建模

    電子發燒友網站提供《電源分配網絡分析及電容器精確建模.pdf》資料免費下載
    發表于 09-20 11:31 ?0次下載

    分布式電源分配網絡建模及去耦設計研究

    電子發燒友網站提供《分布式電源分配網絡建模及去耦設計研究.pdf》資料免費下載
    發表于 09-19 17:42 ?0次下載

    matlab 神經網絡 數學建模數值分析

    matlab神經網絡 數學建模數值分析 精通的可以討論下
    發表于 09-18 15:14

    目標檢測與識別技術的關系是什么

    目標檢測與識別技術是計算機視覺領域的兩個重要研究方向,它們之間存在著密切的聯系和相互依賴的關系。 一、目標檢測與識別技術的概念 目標檢測技術 目標檢測技術是計算機視覺領域的一個重要
    的頭像 發表于 07-17 09:38 ?1244次閱讀

    機器視覺和人工智能的關系與應用

    機器視覺和人工智能的關系是一個廣泛而深入的話題,涉及到計算機科學、電子工程、光學、圖像處理、模式識別等多個領域。 一、機器視覺和人工智能的定義 機器視覺的定義 機器
    的頭像 發表于 07-16 10:27 ?1629次閱讀

    BP神經網絡預測模型的建模步驟

    BP(Backpropagation)神經網絡是一種多層前饋神經網絡,其核心思想是通過反向傳播算法來調整網絡中的權重和偏置,從而實現對輸入數據的預測或分類。BP神經網絡預測模型的
    的頭像 發表于 07-11 16:57 ?2682次閱讀

    計算機視覺與人工智能的關系是什么

    引言 計算機視覺是一門研究如何使計算機能夠理解和解釋視覺信息的學科。它涉及到圖像處理、模式識別、機器學習等多個領域的知識。人工智能則是研究如何使計算機具有智能行為的學科,包括感知、學習
    的頭像 發表于 07-09 09:25 ?1387次閱讀