女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么CNN不能從數據中學習平移不變性?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 09:11 ? 次閱讀

編者按:今天論智給大家帶來的論文是希伯來大學的Aharon Azulay和Yair Weiss近期發表的Why do deep convolutional networks generalize so poorly to small image transformations?這篇文章發現當小尺寸圖像發生平移后,CNN會出現識別錯誤的現象,而且這一現象是普遍的。

摘要

通常我們認為深度CNN對圖像的平移、形變具有不變性,但本文卻揭示了這樣一個現實:當圖像在當前平面上平移幾個像素后,現代CNN(如VGG16、ResNet50和InceptionResNetV2)的輸出會發生巨大改變,而且圖像越小,網絡的識別性能越差;同時,網絡的深度也會影響它的錯誤率。

論文通過研究表明,產生這個現象的主因是現代CNN體系結構沒有遵循經典采樣定理,無法保證通用性,而常用圖像數據集的統計偏差也會使CNN無法學會其中的平移不變性。綜上所述,CNN在物體識別上的泛化能力還比不上人類。

CNN的失誤

深度卷積神經網絡(CNN)對計算機視覺帶來的革新是天翻地覆的,尤其是在物體識別領域。和其他機器學習算法一樣,CNN成功的關鍵在于歸納偏差的方法,不同架構的選擇影響著偏差的具體計算方式。在CNN中,卷積和池化這兩個關鍵操作是由圖像不變性驅動的,這意味如果我們對圖像做位移、縮放、變形等操作,它們對網絡提取特征沒有影響。

但事實真的如此嗎?

在上圖中,左側圖像是模型的輸入,右側折線圖是模型評分,使用的模型是InceptionResNet-V2 CNN。可以發現,作者在這里分別對圖像做了平移、放大和微小形變。在最上方的輸入中,他們只是將圖像從左到右依次下移了一像素,就使模型評分出現了劇烈的波動;在中間的輸入中,圖像被依次放大,模型的評分也經歷了直線下降和直線上升;而對于最下方的輸入,這三張圖是從BBC紀錄片中選取的連續幀,它們在人類眼中是北極熊的自然運動姿態,但在CNN“眼中”卻很不一樣,模型評分同樣遭遇“滑鐵盧”。

為了找出導致CNN失誤的特征,他們又從ImageNet驗證集中隨機選擇了200幅圖像,并把它們嵌入較大的圖像中做系統性平移,由圖像平移導致的空白區域已經用程序修補過了,在這個基礎上,他們測試了VGG16、ResNet50和InceptionResNetV2三個現代CNN模型的評分,結果如下:

圖A的縱坐標是200張圖像,它用顏色深淺表示模型識別結果的好壞,其中非黑色彩表示模型存在能對轉變后的圖像正確分類的概率,全黑則表示完全無法正確分類。通過觀察顏色變化我們可以發現,無論是VGG16、ResNet50還是InceptionResNetV2,它們在許多圖片上都顯示出了由淺到深的突然轉變。

論文作者在這里引入了一種名為jaggedness的量化標準:模型預測準確率top-5類別中的圖像,經歷一次一像素平移就導致分類錯誤(也可以是準確率低一下子變成準確率高)。他們發現平移會大幅影響輸出的圖片占比28%。而如圖B所示,相對于VGG16,ResNet50和InceptionResNetV2因為網絡更深,它們的“jaggedness”水平更高。

那么,這是為什么呢?

對采樣定理的忽略

CNN的上述失誤是令人費解的。因為從直觀上來看,如果網絡中的所有層都是卷積的,那當網絡對圖像編碼時,所有表征應該也都跟著一起被編碼了。這些特征被池化層逐級篩選,最后提取出用于分類決策的終極特征,理論上來說,這些特征相對被編碼的表征應該是不變的。所以問題在哪兒?

這篇論文提出的一個關鍵思想是CNN存在采樣缺陷。現代CNN中普遍包含二次采樣(subsampling)操作,它是我們常說的降采樣層,也就是池化層、stride。它的本意是為了提高圖像的平移不變性,同時減少參數,但它在平移性上的表現真的很一般。之前Simoncelli等人已經在論文Shiftable multiscale transforms中驗證了二次采樣在平移不變性上的失敗,他們在文中說:

我們不能簡單地把系統中的平移不變性寄希望于卷積和二次采樣,輸入信號的平移不意味著變換系數的簡單平移,除非這個平移是每個二次采樣因子的倍數。

考慮到現在CNN通常包含很多池化層,它們的二次采樣因子會非常大,以InceptionResnetV2為例,這個模型的二次采樣因子是45,所以它保證精確平移不變性的概率有多大?只有1/452。

下面我們從計算角度看看其中的貓膩:

我們設r(x)是模型在圖像x處獲得的特征信號,如果把圖像平移δ后,模型獲得的還是同樣的特征信號,那我們就稱這個信號是“卷積”的。注意一點,這個定義已經包含輸入圖像進入filter提取特征信號等其他線性操作,但不包括二次采樣和其他非線性操作。

觀察

如果r(x)是卷積的,那么全局池化后得到的特征信號 r = ∑xr(x) 應該具有平移不變性。

證明

以下論證來自之前我們對“卷積”的定義。如果r(x)是圖像x處的特征信號,而r2(x)是同一圖像平移后的特征信號,那么 ∑xr(x) = ∑xr2(x) 成立,因為兩者是平移前后的特征信號,是不變的。

定義

對于特征信號r(x)和二次采樣因子s,如果信號中x處的任意輸出x是采樣網格的線性插值:

那么我們就認為r(x)是“可位移的”(shiftable)。因為參照之前圖像位移的說法,既然采樣后信號具有平移不變性,那原信號載體就是可以移動的。其中xi是二次采樣因子s采樣網格上的信號,Bs(x)是從采樣中重建的r(x)基函數。

經典Shannon-Nyquist定理告訴我們,當且僅當采樣頻率是r(x)最高頻率的兩倍時,r(x)才可以位移。

論點

如果r(x)可以位移,那么采樣網格全局池化后得到的最終特征信號 r = ∑ir(xi) 應該具有平移不變性。

證明

通過計算我們發現了這么一個事實:采樣網格上的全局池化就相當于所有x的全局池化:

其中,K = ∑xB(x ? xi)和K與xi無關。

而現代CNN的二次采樣忽視了以上這些內容,所以平移不變性是難以保證的。

為什么CNN不能從數據中學習平移不變性?

雖然上一節論證了CNN在架構上就無法保證平移不變性,但為什么它就不能從大量數據里學到不變性呢?事實上,它確實能從數據中學到部分不變性,那么問題還出在哪兒?

論文的觀點是數據集里的圖像自帶“攝影師偏差”,很可惜論文作者做出的解釋很糟糕,一會兒講分布,一會兒講數據增強,非常沒有說服力。但是這個觀點確實值得關注,心理學領域曾有過關于“攝影師偏差”對人類視角影響的研究,雖然缺乏數據集論證,但很多人相信,同樣的影響也發生在計算機視覺中。

這里我們引用Azulay和Weiss的兩個更有說服力的點:

CIFAR-10和ImageNet的圖片存在大量“攝影師偏差”,這使得神經網絡無需學會真實的平移不變性。宏觀來看,只要不是像素級別的編碼,世界上就不存在兩張完全一樣的圖像,所以神經網絡是無法學到嚴格的平移不變性的,也不需要學。

例如近幾年提出的群卷積,它包含的filter數量比其他不變性架構更少,但代價是filter里參數更多,模型也更不靈活。如果數據集里存在“攝影師偏差”,那現有不變性架構里的參數是無法描述完整情況的,因此它們只會獲得一個“模糊”的結果,而且缺乏靈活性,性能自然也比非不變性架構要差不少。

小結

雖然CNN在物體識別上已經取得了“超人”的成果,但這篇論文也算是個提醒:我們還不能對它過分自信,也不能對自己過分自信。隨著技術發展越來越完善,文章中提及的這幾個本質上的問題也變得越來越難以蒙混過關。

或許由它我們能引出一個更有趣的問題,如果人類尚且難以擺脫由視覺偏差帶來的認知影響,那人類制造的系統、機器該如何超越人類意識,去了解真實世界。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4806

    瀏覽量

    102728
  • 數據集
    +關注

    關注

    4

    文章

    1222

    瀏覽量

    25268
  • cnn
    cnn
    +關注

    關注

    3

    文章

    354

    瀏覽量

    22626

原文標題:證偽:CNN中的圖片平移不變性

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    不變矩在車牌字符識別中的應用

    為了克服車牌字符的傾斜和相似字符間的誤識別對字符識別帶來的影響,提出了一種基于不變矩的匹配算法。利用不變矩的旋轉不變性克服字符傾斜帶來的影響。對不變矩算法進
    發表于 01-13 14:37 ?13次下載

    一種自動的輪轂識別分類方法

    本文描述了一種運用統計模式識別方法自動識別多種車型輪轂的方法。構造了四個具有平移不變性、比例不變性和幅度線性變換不變性的一維不變量,用以表征
    發表于 02-21 10:45 ?20次下載

    去降Mallat離散小波變換實現彩色圖像分割

    該文針對Mallat快速離散小波變換,提出了一種利用變換平移不變性的離散小波變換的彩色圖像分割方法。首先對原始圖像進行平移不變性的小波變換,然后提取顏色和紋理特征,并采用
    發表于 10-12 16:00 ?19次下載
    去降Mallat離散小波變換實現彩色圖像分割

    基于尺度不變性的無參考圖像質量評價

    實際場合中。為了解決數據庫依賴問題,提出一種歸一化的基于圖像尺度不變性的無參考圖像質量評價方法。該方法不依賴外部數據,將圖像的統計特性及邊緣結構特性作為圖像質量評價的有效特征,利用圖像多尺度
    發表于 12-22 13:44 ?1次下載
    基于尺度<b class='flag-5'>不變性</b>的無參考圖像質量評價

    如何判斷差分方程描述的系統的線性和時變性?《數字信號處理》考研題

    判斷由差分方程描述的系統的線性和時變性,最可靠的方法是根據線性和時不變性的原始定義來判斷,這就是問題的解答。
    的頭像 發表于 07-19 17:20 ?2.9w次閱讀

    圖像處理學習資料之《圖像局部不變性特征與描述》電子教材免費下載

    《圖像局部不變性特征與描述》是2010年國防工業出版社出版的圖書,作者是王永明、王貴錦。 本書是按照概念-理論-方法-實例思路來依次組織的。第l章介紹有關局部不變性的歷史沿革和基本概念,第2章介紹
    發表于 08-30 08:00 ?87次下載
    圖像處理<b class='flag-5'>學習</b>資料之《圖像局部<b class='flag-5'>不變性</b>特征與描述》電子教材免費下載

    為什么區塊鏈具有不變性

    R3研究主管安東尼?劉易斯(Antony Lewis)表示:“當人們說區塊鏈是不可變的時候,他們并不意味著數據不能被改變,他們的意思是,如果沒有共謀,改變是極其困難的,如果你嘗試了,就非常容易發現這種嘗試。”
    發表于 03-21 11:43 ?1008次閱讀

    區塊鏈中的不變性是什么意思

    如何更好地理解它呢?我們可以將其與谷歌電子表格進行比較。后者具有行和列,您可以隨時添加、編輯或刪除這些行和列。而當您在區塊鏈中輸入任何數據時,除非達成一致協議,否則您不能改動這些數據。因此,雖然區塊鏈中的
    發表于 04-06 09:00 ?1011次閱讀

    什么是區塊鏈不變性

    每個信息塊(例如事實或交易細節)使用加密原則或哈希值進行。該哈希值由每個塊分別生成的字母數字字符串組成。每個塊不僅包含自身的哈希或數字簽名,還包含前一個。這確保了塊可追溯地耦合在一起并且不間斷。區塊鏈技術的這種功能確保沒有人可以侵入系統或改變保存到塊中的數據
    發表于 04-26 13:57 ?1045次閱讀

    MEGNet普適性圖神經網絡 精確預測分子和晶體性質

    在材料學領域,對分子或晶體結構的特征描述需要滿足平移,轉動,鏡面不變性,以及對整體結構特異信息的表征。
    的頭像 發表于 05-16 14:51 ?8587次閱讀
    MEGNet普適性圖神經網絡 精確預測分子和晶體性質

    機器學習在各領域的廣泛應用以及促生其在材料領域的應用

    至關重要的問題是如何從化學視角為晶體結構構建低維特征。糟糕的特征無法減低數據的復雜性或無法提取晶體的關鍵信息從而導致巨大的預測誤差。為了滿足覆蓋絕大多數晶體結構和組成,特征需要滿足旋轉、平移和尺度不變性
    的頭像 發表于 04-12 10:19 ?5053次閱讀
    機器<b class='flag-5'>學習</b>在各領域的廣泛應用以及促生其在材料領域的應用

    卷積神經網絡是怎樣實現不變性特征提取的?

    計算機自動提取特征(表示工程)實現圖像特征的提取與抽象,通過MLP實現數據的回歸與分類。二者提取的特征數據都具不變性特征。 卷積神經網絡為什么能提取到圖像特征,其關鍵在于卷積神經網絡有兩種不同類型的層 -卷積層(c
    的頭像 發表于 04-30 09:11 ?2778次閱讀
    卷積神經網絡是怎樣實現<b class='flag-5'>不變性</b>特征提取的?

    為什么卷積神經網絡可以做到不變性特征提取?

    計算機自動提取特征(表示工程)實現圖像特征的提取與抽象,通過MLP實現數據的回歸與分類。二者提取的特征數據都具不變性特征。 卷積神經網絡為什么能提取到圖像特征,其關鍵在于卷積神經網絡有兩種不同類型的層 -卷積層(c
    的頭像 發表于 05-20 10:49 ?5532次閱讀
    為什么卷積神經網絡可以做到<b class='flag-5'>不變性</b>特征提取?

    圖像匹配算法SIFT算法實現步驟簡述

    將一幅圖像映射(變換)為一個局部特征向量集;特征向量具有平移、縮放、旋轉不變性,同時對光照變化、仿射及投影變換也有一定不變性
    發表于 04-17 09:31 ?1808次閱讀

    基于Python和深度學習CNN原理詳解

    卷積神經網絡 (CNN) 由各種類型的層組成,這些層協同工作以從輸入數據中學習分層表示。每個層在整體架構中都發揮著獨特的作用。
    的頭像 發表于 04-06 05:51 ?2699次閱讀
    基于Python和深度<b class='flag-5'>學習</b>的<b class='flag-5'>CNN</b>原理詳解