谷歌今日發文介紹新型深度CNN模型——NIMA(Neural Image Assessment),它能以接近人類的水平判斷出哪張圖片最好看。
圖像質量和美學的量化一直是圖像處理和計算機視覺長期存在的問題。技術質量評估測量的是圖像在像素級別的損壞,例如噪聲、模糊、人為壓縮等等,而對藝術的評估是為了捕捉圖像中的情感和美麗在語義級別的特征。最近,用帶有標記的數據訓練的深度卷積神經網絡(CNNs)已被用于解決特殊圖像(例如景觀)圖像質量的主觀屬性。然而,這些方法通常簡單地將圖像分為低質量和高質量的兩類,范圍有些狹窄。為了得到更準確的圖像質量預測,我們提出的方法可以得不出同的預測評級,更接近于真實的評級,更適用于一般圖像。
在NIMA:Neural Image Assessment這篇論文中,我們介紹了一個深度卷積神經網絡,通過訓練,它可以判斷哪些是用戶認為技術精湛的圖片(technically),哪些是有吸引力的圖片(aesthetically)。正是有了最先進的能夠識別物體的深度神經網絡,NIMA才能在此基礎上理解更多類別的物體,不論有什么變化。我們提出的網絡不僅能給圖像打一個靠譜的分數、接近人類的感知水準,同時還能用于各種需要大量勞動力和主觀任務中,例如智能照片編輯、優化視覺質量,或者在pipeline中發現視覺錯誤。
背景
一般來說,圖像質量評估可分為全參考和無參考兩種方法。如果作為參考的理想圖片可用,則就會使用諸如PSNR、SSIM等衡量圖像質量的尺度。當參考圖像不可用時,無參考方法就會依靠統計模型來預測圖像質量。這兩種方法的主要目標是預測一個與人類感知十分相近的質量分數。在利用深度卷積神經網絡對圖像質量進行評估時,需要通過在與對象分類器相關的數據集上進行訓練(例如ImageNet),以初始化權重。然后對注釋數據進行微調,以進行感知質量評估任務。
NIMA
通常判斷一幅圖像是否有吸引力是將其分成高低兩種質量。這忽略了一個事實,即訓練數據中的每個圖像都與人類評分的直方圖相關聯,而非簡單的二分類。人類評價直方圖是評價圖像整體質量的指標,也是所有打分者的平均數。而在我們的新方法中,NIMA模型不是簡單地將圖像分為高或低質量,或者進行回歸得到平均分,而是對任意給定的圖像產出評級分布——分數從1到10,NIMA計算出各個分數的可能性。這也與訓練數據的來源相一致,并且當與其他方法對比時,我們的方法更勝一籌。
接著,就可以使用NIMA的向量分數的各種功能按照吸引力排列圖像了。下面展示了利用NIMA排名的圖片,他們都來自AVA數據集。在測試中,AVA中的每張圖片都由200人共同評分,訓練結束后,NIMA對這些圖片的美感排名與人類評分員的平均分數非常接近。我們發現NIMA在其他數據集上表現同樣很出色,對圖像質量的預測和人類接近。
AVA中帶有“風景”標簽的圖片排名。括號中是人類打分,括號外是NIMA的預測分數
NIMA的分數也可以比較經過扭曲的圖片與原圖的質量差別,以下是TID2013測試集的一部分,其中包含各種類型和級別的圖像失真。
圖像感知增強(Perceptual Image Enhancement)
正如我們在另一篇論文中所提到的,質量和吸引力分數也可以用來調整圖像增強operators。換句話說,將NIMA分數最大化作為損失函數的一部分,能夠提升圖像增強的感知質量。下圖中的例子表明,NIMA可以作為訓練損失來調整色調增強算法。我們發現對美感的基準評分可以通過NIMA的評分指導的對比調整來改善。因此,我們的模型能夠引導一個深度卷積神經網絡濾波器,以找到參數中接近最佳設置的位置,例如亮度、高光和陰影。
用CNN和NIMA改變原圖的色調和對比度
展望未來
NIMA的結果表明,基于機器學習的質量評估模型可能用途非常廣泛。比如,我們可以讓用戶很輕易地找出最好的照片,甚至實現在用戶拍照時進行實時反饋。在后期處理上,該模型可以產生更優秀的結果。
簡單地說,NIMA以及其他類似的網絡可以滿足人類對圖像甚至視頻的審美,雖然還不夠完美,但已經比較可行了。俗話說,蘿卜青菜各有所愛,每個人對一張照片的評價也各不相同,所以想要了解所有人的審美水平是非常困難的。但我們將繼續訓練測試模型,期待有更多的成果。
-
神經網絡
+關注
關注
42文章
4814瀏覽量
103618 -
圖像處理
+關注
關注
27文章
1329瀏覽量
58055 -
計算機視覺
+關注
關注
9文章
1709瀏覽量
46779
原文標題:谷歌發布NIMA,一個有品位的CNN模型
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
從AlexNet到MobileNet,帶你入門深度神經網絡
深度學習模型是如何創建的?
一文詳解CNN
小米6新增黑、藍“幽雅”兩色,小米6哪款顏色最好看?
基于FPGA的通用CNN加速設計

評論