編者按:今年國慶期間,論智介紹了當時正處于ICLR 2019盲審階段的一篇論文:BigGAN。這是赫瑞-瓦特大學和DeepMind研究人員的合作成果,根據實驗結果,他們把模型IS提高了一百多分——從52.52提升到了166.3——堪稱圖像生成領域的一個巨大進展。但大家都知道,通常論文里呈現的圖像都是精品中的精品,媒體在宣傳時也會盡量美化甚至“神化”結果。那么BigGAN的效果真的有那么好嗎?
當我第一次看到這些圖像時,說實話我很驚訝。不是因為圖像本身潛藏著什么內容,而是它們都是一個叫BigGAN的神經網絡生成的,都是假的,我還從來沒見過這樣宛若照片的生成圖像。
上面這8幅圖截自BigGAN的論文:Large Scale GAN Training for High Fidelity Natural Image Synthesis(arXiv:1809.11096),感興趣的讀者可以去讀一讀。幾個月前,這篇論文在機器學習社區引起了巨大轟動,它不僅能生成512x512的高分辨率圖像,還在Inception標準基準測試中取得了歷史性的高分。人們在驚異于論文團隊能支撐起的龐大處理能力(512 TPUv3)的同時,也不由心生懷疑:BigGAN是不是作弊了?它是不是直接照搬的訓練集圖像?
為此,不少研究人員去原始ImageNet檢驗了自己的想法,然而他們最終得出的結論是:這些圖像確實都是BigGAN自己生成的。
雖然前人的做法已經證實BigGAN是“誠實”的,但如果我們再“杠”一下,一個合理的懷疑是論文結果之所以令人印象深刻,一個原因是這都是精選后的圖像。就在幾天前,BigGAN放出了自己的TF Hub Demo,相信不少人已經去體驗過了,也發現這個問題。模型在一些常見物品上的表現非常好,比如狗和簡單風景,因為它們往往畫面單一、結構簡單,但在生成更復雜、更多樣的的人群上卻很糟糕。
那么BigGAN不完美的一面是什么樣的呢?下面是研究人員發布的一些生成圖像:
毫無疑問,這三幅圖展示的都是時鐘,但區別于現實中的實物,這些鐘更像人夢里的場景:詭異的字母、多余的指針。負責任的說,這些是BigGAN生成圖像中的常見問題,它不能學習數據集里的各種字母和字符,再加上GAN本身不提供計數功能,所以我們經常能在里面發現有很多條腿的蜘蛛和眼睛長太多的青蛙,有時還可以看到有兩個火車頭的火車。
至于人類……相比其他能生成多樣性圖像的GAN,BigGAN在生成人類圖像上其實已經很不錯了。但我們是人,很擅長在這個物種的臉上、軀體上發現“丟失”部分,所以下面這些結果還是很令人頭疼。
因此,如果快速瀏覽BigGAN生成的一系列圖像,我們能從中發現不少圖具有詭異的美感。比如模型在生成下面幾幅景觀圖時都遵循了從數據集中學到的構圖和光影,但當這些來自不同樣本的素材雜糅到一起后,它們給人的感覺就成了既熟悉又奇怪。
當它試圖“復制”各種人造設備(洗衣機?熔爐?)時,圖像呈現的畫面又極具藝術氣息,仿佛電影中的一些夸張而富有韻味的過場鏡頭。
更有甚者,BigGAN還能模仿宏觀上的軟焦點,即一種通過有意識降低鏡頭的清晰度,得到柔和的表現效果的攝影技巧。如下圖所示,我們看不清圖中的對象是什么,但它們都表現出了極強的繪畫感。
即便是最普通的東西,BigGAN仿佛成了一面濾鏡,把它們渲染得極具美感,令人難以忘懷。
這是藝術嗎?對于計算機視覺任務而言,這些充滿“想象力”的扭曲恰好是BigGAN的不足,畢竟它的目標是生成極其逼真,同時盡可能多樣化的圖像。它并不是在創作,而只是在模型它看到的數據——ImageNet,一個巨大的用于訓練各種圖像處理算法的通用數據集。
但是,我們也必需認識到,研究人員在BigGAN的輸出里精挑細選的過程其實也是一種藝術行為,包括這篇文章本身。你可以用這種方法講述一個故事,或是制作一部令人難忘的美麗電影,這一切都取決于你收集的數據集以及選擇的輸出。未來,像BigGAN這樣的算法將改變人類藝術——不是取代人類藝術家,而是成為一個強大的新協作工具。
-
神經網絡
+關注
關注
42文章
4809瀏覽量
102826 -
數據集
+關注
關注
4文章
1223瀏覽量
25281
原文標題:拆臺BigGan:“失敗”圖像生成集錦
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論