細粒度圖像分析(fine-grained image analysis,FGIA)是計算視覺領域的基礎問題,由于面臨的問題與其他視覺任務相比具有顯著的差異,細粒度圖像分析任務在發展過程中面臨著獨特的挑戰。
近年來隨著深度學習發展和數據特征表示的進步,FGIA也取得了一系列進展。來自曠視南京研究院的研究人員們對近年來基于深度學習FGIA的發展進行了系統的梳理和分類,同時給出了一系列行業內具體的應用實例,最后從目前面臨的挑戰和開放問題中展望了這一領域的發展趨勢和研究方向。
細粒度圖像分析所面臨的任務是分析和處理某個類別目標下的一系列子類別的問題,例如狗的類別下包含了各種不同外形、顏色、身材的狗。這一任務最大的挑戰在于子類間的差異很小,而在同一類別中的對象卻因為姿態、大小或者位置呈現出較大的差別。
如何通過準確的特征表述,從細微的不同中辨別出不同的子類別,是細粒度圖像分析任務所面臨的最大挑戰。
細粒度圖像分析的主要任務是從同一父類中辨別出不同子類間的差異。
目前細粒度圖像分析主要分為識別、檢索和生成三個部分,在學術界和產業界扮演了重要的作用:從生物領域的監測和識別到零售領域的商品處理,從天氣和氣候變化分析到交通運輸,細粒度圖像分析擁有廣泛的應用前景。
研究人員們在各大頂會上也發表了大量研究成果,舉辦了諸多FGIA的比賽,例如魚類識別和鯨魚識別等,也為FGIA指明了一系列未來的發展方向。
細粒度圖像識別
細粒度圖像識別任務是FGIA中最為活躍的研究領域,目前的研究思路重要分為三個方向:
一種是基于定位與分類的方法來實現;
另一種則直接利用端到端的方法實現特征編碼從而進行識別;
最后一種則依賴于容易獲取的外部信息進行輔助以實現細粒度圖像識別。
定位-分類方法將細粒度圖像識別轉換成了兩個細分的子任務。首先通過對圖像中細粒度目標的可識別語義部分進行抽取作為中介,隨后利用模型構建起對于這些部分的特征表達并分類來實現。
這需要一個用于定位這些類別關鍵部分的子網絡,和一個可以對這些關鍵部分進行有效分類的子網絡。通常研究人員們會使用bbox框或者語義分割掩膜等來為關鍵部分定位。基于端到端的方法則直接從數據中學習可辨別的特征表達,構建出強大的細粒度識別算法。例如雙線心CNN方法利用高階統計特征來提高中級cnn的學習能力,但過高的維度限制了這種方法在大規模數據中的現實應用。
最近研究人員利用低維嵌入的聚合以及雙線性特征的近似等方法來改進端到端模型,并設計了特殊的損失函數來驅動模型學習出細粒度的表達。外部信息輔助下的細粒度圖像識別充分利用了文本、網絡數據、多模態數據和人類的幫助來更有效地進行細粒度任務。由于人類標記的數據成本很高,研究人員開始選用互聯網上帶有弱標簽和噪聲的數據。
其中一種方法是為需要測試的類別爬取含有標記噪聲的數據作為訓練數據,其主要的研究方向在于克服標記數據與易獲取網絡數據間的差距、減小噪聲數據的負面影響。研究人員通常使用對抗學習和注意力機制來處理。
另一種方式是將良好標記類別上學習的能力遷移到測試類別上,通常采用元學習和無樣本學習方法。
除了網絡數據外,研究人員們還使用多模態數據進行輔助學習,包括自然語言描述和知識圖譜等數據都是輔助細粒度圖像識別的有力工具,實現視覺與語言的聯合表示。
最后人工智能中一定需要人的參與,通過將難識別的樣本、關鍵特征定位等任務加入人與機器的合作來實現更好的細粒度識別。
細粒度圖像檢索
圖像檢索也是細粒度圖像分析中重要的一部分,在給定某類圖像的前提下可以從數據庫中返回相同的子類,而無需其他的監督信號。但與通常檢索不同的是,細粒度任務所要檢索的對象都是極為相似的子類別內容,子類間僅僅只有細微的差異,而同一目標則因為位姿、尺度和旋轉的不同而差異巨大。
這一任務在電子商務和在線平臺上有著巨大的需求,近年來研究人員利用深度學習的方法探索了對于圖像中關鍵對象或部分的深度表達,發現新的損失函數和子結構來對這一問題進行處理。
細粒度圖像生成
隨著無監督學習和圖像生成領域的發展,研究人員們開始探索細粒度的圖像合成問題,包括人臉、人體和不同環境下的物體合成都展開了一系列研究。
例如結合變分自編碼器和生成對抗方法的CVAE-GAN方法基于概率模型構建了標簽和隱含屬性,通過細粒度的類別來引導生成模型進行細粒度的圖像生成。還有研究人員利用文本描述的方法結合生成模型得到具有細粒度特征的合成結果。
數據和基準
目前在細粒度圖像領域有一系列基準數據,包括了動植物、飛機、零售商品等,這些數據不僅為這個領域的算法提供了有效的測評基準,同時也推動了這一領域的不斷進步。作者在下表列出了常見的FGIA數據,包括了元類別、數量、標簽類別等:
值得注意的是CUB200-2011數據是一個使用最為廣泛的數據集,數據包含了詳盡的標簽,包括部分標注、屬性標簽甚至是一段對應的自然語言描述,近年來研究人員還在不斷拓展這個數據。
此外還有很多數據集在不斷地放出,人們更深入地研究新穎的特征、大規模、多層級的結構、域間的差異和數據長尾分布等,同時更多的研究如何在真實場景中進行有效落地。
廣泛的應用
細粒度的圖像分析在產業界中有諸多的應用,包括推薦系統中的衣服鞋帽檢索、時尚識別,電子商務網站中的產品檢索等等。此外人臉識別也可以視為細粒度圖像識別的一個子問題,針對的是人臉這個類別下的身份細粒度識別。同時行人和車輛的重識別問題也是細粒度識別問題的一種體現。
FGIA將為會這些具體的問題提供一系列解決方案,包括可識別特征的捕捉和層層遞進的信息結構等,都為這些領域的發展做出了貢獻。
開放的問題
盡管細粒度圖像分析在近年來取得了一系列的進步,但在很多方面還存在一系列開放問題值得進一步深度地研究,在文章的最后研究人員提出了四個未來潛在的發展方向,為未來的研究給出了建議。1. 自動化的細粒度建模。隨著自動機器學習AutoML和自動架構搜索NAS的發展,未來細粒度機器學習將通過這些方法提高建模的效率和精度,并將尋找到表現更好的模型,同時也將反過來促進自動機器學習領域的發展。2. 細粒度小樣本學習。人類可以通過少量的樣本抽象出對于某個類型的認識。目前最好的深度學習模型也需要眾多樣本進行學習,既耗時也需要大量的數據成本。而細粒度圖像識別擁有比粗尺度更為精細的標簽,未來研究人員也許會利用更小的樣本數量來對分類器進行訓練,強化FGIA的實用性和應用規模。3. 細粒度哈希。隨著這一領域的應用和數據規模的擴大,檢索的難度也隨之加大。哈希作為一種有效的領域搜索技術正在受到人們的關注,對于細粒度圖像檢索的哈希研究將有望成為處理大規模數據問題的有效手段。4. 真實細粒度分析。為了適應真實應用場景需要進一步研究在各種真實條件下的FGIA問題,例如在超市貨架上的商品和野外的動物細粒度分析問題中,無法控制環境和對象的條件,這會對視覺任務帶來一系列挑戰。隨著這一領域的發展,算法和模型將會具有更強的域適應性,基于知識遷移、長尾數據以及在資源受限的端上運行的細粒度圖像分析將會有更多深入的研究,實現更加先進和可用的FGIA系統。
-
圖像分析
+關注
關注
0文章
82瀏覽量
18925 -
深度學習
+關注
關注
73文章
5560瀏覽量
122746
原文標題:FGIA——細粒度圖像分析的昨天、今天和明天
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
基于Modbus功能碼細粒度過濾算法的研究

基于ABS細粒度隱私隔絕的身份追溯研究

使用深度模型遷移進行細粒度圖像分類的方法說明

紹華為云在細粒度情感分析方面的實踐
結合非局部和多區域注意力機制的細粒度識別方法

基于文本的細粒度美妝圖譜視覺推理問題

基于BiLSTM-CRF的細粒度知識圖譜問答模型
機器翻譯中細粒度領域自適應的數據集和基準實驗
通過對比學習的角度來解決細粒度分類的特征質量問題

評論