編者按:《GANs in Action》作者Jakub Langr評述了在ICML 2018上發表的GAN論文,以及相應報告。
鄭重聲明,我非常尊重研究人員在ICML上發表的所有驚人工作。我離他們的水平還差得遠,感謝他們為推進這一領域研究所做的貢獻!
參加ICML總體上是一次很棒的體驗。不過本文的主題不是我的想法、印象、體驗。整個工業界正緩慢地滑入學術會議,我覺得我也許可以更進一步,總結一下從業者最感興趣的ICML上GAN方面的成果。
這意味著,在我看來無法為最終目標主要不是發表論文的人所應用的那些學術貢獻,我的評價會打上一些折扣。這也意味著,我會使用更平易近人的語言,不會深入論文的理論或技術細節。另外,這還意味著,我會給出一些個人的意見和想法,其中一些意見和想法,你可能并不贊同。我希望這篇文章對機器學習從業者有用,特別是那些初入這一領域的人。我在準備這次會議的時候大概讀了50篇這方面的論文,所以我想為他們提供一些上下文。
本文中的解釋常常是簡短而粗糙的,另外不是每篇論文的主題都是GAN。
我的公司Mudano提供了培訓的預算,我選擇把部分預算用于參加ICML,機器學習的三大頂會之一。這是一次令我增廣見聞的獨特體驗。為了更好地總結參會的收獲,我決定記錄大部分接觸到的論文。本文按照ICML的議程排序。我沒有列入周六、周日的內容,因為那兩天大部分是workshop。(我參加了可重現機器學習的workshop,我希望大多數機器學習從業者至少有些熟悉這一主題。如果大家對此感興趣,我以后會寫文章介紹。)
11日,周三
RadialGAN
GAN的優勢部分在于半監督學習和數據增強?;旧?,RadialGAN讓我們可以利用多個不同來源的數據集,通常這能帶來更好的表現,即使在某些數據集質量不高或者和手頭任務關系不密切的情況下也是如此。RadialGAN首先將數據集轉換為共享的潛空間,接著再將潛空間轉換為手頭任務的目標域。
我個人非常喜歡這篇論文。這篇論文在工業界有很大的潛力。報告很清晰。我的一個同事很為RadialGAN的潛力激動。如果能將RadialGAN應用到你手頭的問題上,相信效果會大為不同。
ILVM
基本上,ILVM通過人工介入的主動學習方法確保我們能以更容易讓人理解的方式解釋潛空間。雖然有潛在的降低精確度的風險,但能讓我們說明潛空間的哪個維度影響哪個性質。
聽起來很有趣,因為通常解釋清楚潛空間和生成樣本之間的變換需要大費周折。報告的表述不是非常清晰。
哪種GAN的訓練方法真能收斂?
Lars等發表的這篇論文通過在GAN的訓練過程中施加特定類別的梯度懲罰,在較老的架構上取得了當前最先進的表現(在該項基準測試上超過了之前最佳的學術成果)。相關代碼見GitHub:LMescheder/GAN_stability
令人印象相當深刻的成績。所用的技術比較復雜,但花一些時間理解這一技術應該是值得的。之前有一些類似的研究,但這次取得的結果讓這一技術的價值不言而喻。在無需漸進增長的情況下取得PGGAN等級的結果!
氣平方GAN
氣平方GAN結合了GAN的三種不同思路:
中央的x2-GAN即氣平方GAN
這篇論文的理論價值大概很高,但對從業者而言,實際用途看起來多少比較有限。
基于分類的GAN分布協方差偏移研究
Santurkar等的這項檢測模型崩塌(mode collapse)的研究很酷。學術界常常需要嘗試檢測訓練中出現的問題,在這方面這篇論文意義很大。
我覺得為評估訓練質量提供一個一致的基準真是功莫大焉。不過我更偏愛其他測度。但是這項研究提出的方法大概可以作為測度集成的一部分使用。
NetGAN
挺有趣的工作,展示了GAN可以應用于生成非常復雜的圖。NetGAN取得了當前最先進的表現(據鏈接預測精確度)。
12日,周四
幾何學評分
這項工作提出了一種基于拓撲分析構建的通用測度,可以評估成功覆蓋了多少比例的原數據集,并通過逼近計算生成數據集的多樣性。
實際上我對此感到非常興奮,因為它讓我們可以評估任何領域的GAN并檢測模型塌縮。在這項工作之前,我們完全沒有通用的評估方法。也許以后有一天,我們甚至能看到評估質量的通用方法。
GLO
GLO與典型的GAN設置不大一樣,它的目標是創建能夠生成更好樣本的模型。GLO優化生成網絡的潛空間,聚焦于模型塌縮問題和生成不一樣但足夠類似的樣本。
我對這篇論文感覺有點復雜。一方面,我覺得這篇論文寫得主觀性很強——在學術界這可不同尋常——我不同意其中的很多東西。另一方面,在ICML期間的非正式討論事實上非常好,提供了很多信息。在討論時,有一個研究者提出了一個有趣的觀點,模型塌縮正是GAN奏效的原因。這是一則迷人的斷言,我很想知道是不是果真如此。關于這篇論文還有一樁趣聞,這篇論文被ICLR拒了,作者們重新在ICML上發表了。
LCC
LCC試圖通過局部坐標編碼提升GAN的表現,這讓潛空間更復雜了。報告的表述不是非常清晰,但主要思想是探索流形假說——某個低維潛空間和復雜流形(例如,圖像)間存在一個映射。所有GAN歸根打底都取決于這一假說。但如果你思考這個映射的話,它看起來顯得有些奇怪,你可以在這么低維的空間表示所有圖像。由于某種原因,這篇論文沒有對比當前最先進方法。
3D點云的學習表示和生成式模型
3D點云,誰不愛?太酷了。在這篇論文中,作者創建了一個更為強大的模型以生成一般物體的3D點云。盡管仍有許多需要改進的地方,總的來說效果很贊。
對抗學習圖像到圖像轉換的理論分析
這篇論文分析了GAN的配對轉換,主張配對圖像轉換的損失基本上由兩部分組成。身份損失(identity loss)確保圖像是正確的,而對抗損失(adversarial loss)確保圖像是清晰的。
這是一項有趣的理論工作,但目前而言從業者大概用不到。同時論文中一張圖也沒有,所以我這里附上了招貼畫上的圖像(不好意思,拍糊了!)。
復合函數梯度
這篇論文引入了一種看起來有理論支持的更為復雜的訓練算法(漸進式復合函數梯度,ICFG),接著又創建了一個逼近ICFG的算法版本xICFG,在訓練過程中加入了if語句,在我看來感覺像是一種ad-hoc。最終結果超過了當前最先進的水平,但我一般不太喜歡增加這么多復雜度的方法。
調和對抗網絡
這篇論文背后的高層想法很有趣。和PGGAN類似,作者也認為GAN的問題在于剛開始面對的任務太難了。因此作者轉而創建了一個網絡,給圖像加上了一點變形,讓生成器的任務輕松一點。采用這一方法后,表現超過了當前最先進水平。
RFGAN
基本上,這篇論文連接了生成圖像的自編碼版本,傳給判別器作為參考。招貼畫極為清晰地描述了這一架構,只可惜我的手機好像丟失了相關照片。
所得結果超過了當前最先進水平,但超得不多,所以我不太確定這是否可以算是一項突破。
計算精確Wasserstein距離
這篇論文引入了線性編程以可控地計算精確的Wasserstein距離,并據此改善訓練。Wasserstein距離的問題在于,即使簡單的點云也會帶來組合性的復雜度,使得精確距離的計算變得相當復雜。這篇論文做到了這一點,并且戰勝了當前最先進的模型。
論文中用于基準測試的數據集既簡單又有限(MNIST、CIFAR-10),所以我很想知道這一方法在Celeb-A HQ和ImageNet-1000這樣的數據集上表現如何。
Jacobian clamping
和其他一些ICML上的論文一樣,我老早就讀過這篇論文,但作者們在招貼畫上非常出色地簡要總結了結果?;旧希麄兪褂肑acobian clamping控制生成器更新從而達成穩定得多的訓練。雖然表現沒有明顯提升,但穩定性方面的提升表明了這一技術的價值。
作為從業者,如果你碰到GAN穩定性的問題,這是值得嘗試的論文。
GAIN
這也許是從業者最感興趣的論文之一,因為它處理的是我們經常碰到的問題——缺失數據。它創建了帶有提示機制的GAN配置,以推斷匹配分布的缺失值。我們知道GAN很擅長創建生成式分布。提示機制的加入很有必要,否則這一問題對判別器而言太難了——部分缺失數據和真實數據有太多合理的排列組合,沒有提示機制問題很快會失控。
我已經給一些同事安利過這篇論文。
基于受限查詢和信息的黑盒對抗攻擊
這是為數不多的真實對抗攻擊論文。技術上說,其中并沒有涉及GAN或者生成式建?!也鲁藬_動的部分涉及一點——但這是一篇以非常有趣的方式進行真實對抗攻擊的論文。
我仍然認為深度學習模型還沒有普及到可以讓這一對抗攻擊造成任何實際傷害,但這篇論文涉及到了實際的問題。
一等GAN
這篇論文背后的思路是在WGAN-GP之類的梯度懲罰的情形下,與其優化WGAN損失接著加入懲罰,不如直接優化帶有懲罰的損失。作者們說,在一些病態情形下,優化損失接著加入懲罰會讓生成分布不那么接近目標分布。在招貼畫周圍有人(不是我)寫了一些非正式的質疑和證明,但我可不會拿這些去逼問作者們的,哈哈哈。
SPIRAL
DeepMind的這項工作使用GAN生成能夠控制筆刷的程序,可以學習繪制任意風格的作品。
MAGAN
好吧,我現在相當確定MAGAN是流形對齊GAN(Manifold Alignment GAN)的簡稱,雖然報告的時候從來沒提到這點。但當我第一次見到一個美國人報告這樣一篇論文,我還以為這個名稱有什么政治寓意呢,哈哈。(譯者注,作者這里應該是聯想到了川普的口號Make America Great Again)?;旧?,MAGAN通過添加對應損失確保兩個流形總是一致對應的(而不是像其他算法中那樣隨機對應)。
有意思的珍品。在報告之后,有人“提問”,聲稱上一屆NIPS已經有一篇論文做的是一模一樣的事情。作者不知道那篇論文。你怎么看?
時刻到事件的對抗建模
這篇論文和GAIN的領域類似,只不過聚焦于時序數據,并且大致可以得到更好的特定時間的時刻分布的概率分布(基本能夠自動推斷)——例如醫院中的并發癥。
對處理時序數據的人而言,這是篇很有用的論文。
CyCADA
這篇論文應對的是大量從業者在GAN上反復碰到的問題:我們的模型沒有概括性。我們經常碰到這樣的事情,部署在ImageNet(打個比方)上訓練的模型,然后發現它的表現很糟糕。這只是因為,即使只考慮ImageNet上的分類,真實世界也比ImageNet復雜得多。CyCADA擴展了CycleGAN,基本上可以在實現領域到領域的變換時保證正確語義。所以CyCADA具有應用于自動駕駛汽車之類的場景的潛力,可以在安全、可伸縮的計算機生成環境中創建自動駕駛汽車,接著轉換機器學習系統至真實世界。
真的很有趣!絕對值得一試。
AIQN
技術上說,這篇論文并不涉及GAN。AIQN“不過”是一個自回歸模型,但它能夠生成和當前最先進的GAN的水平相當的結果。真的很令人印象深刻,但和所有自回歸模型一樣,這個設定在放大上很成問題。報告之后,作者提出可以使用自動編碼器來放大圖像,但這又帶來了一堆新的挑戰。
這是一個有趣的方法,但有人做過類似的工作(雖然生成圖像質量不如這項工作好),這些工作都沒能跨過32×32的像素限制,AIQN也是一樣。很多人嘗試過,但都沒能克服這一限制。除非能突破限制,否則我們不太確定這類方法是否真能放大;注意GAN已經進入1024×1024的時代。
M-BGAN
不同于常規的GAN,M-BGAN使用真實數據和合成數據混合的batch,進一步提升判別器的能力。正如作者們在總結部分所說:“一個簡單的架構技巧使其能夠可證實地復原所有作為無序集合的batch的功能?!?/p>
我真心喜歡這篇論文,因為它是一個優雅的想法,同時總結部分很好地總結了這篇論文。讓我們拭目以待,看看這是否會成為占據統治地位的框架。不過我覺得作者們引用其他架構的方式有點奇怪(全部引用同一篇論文)。
JointGAN
這是一個類似CycleGAN的架構,不過CycleGAN僅僅推斷條件分布,而JointGAN聯合學習每個域的邊緣概率分布。剛開始,它通過噪聲生成X,接著以X為條件基于邊緣概率分布生成Y。
我發現報告有點含糊,但結果看起來真是很有趣。生成的文本看起來真是令人印象深刻,不過接著作者說這實際上是由一個自動編碼器從潛空間生成的文本,而這個自動編碼器是由GAN生成的。
AugCGAN
AugCGAN是增強CycleGAN(Augmented CycleGAN)的簡稱。這真是一個非??岬腃ycleGAN擴展。和標準形式的CycleGAN相比,AugCGAN在第一次和第二次生成時插入了潛空間。CycleGAN的循環一致性損失(Cycle-consistency loss)是通過diff(X1, X2)衡量的,其中X1 -> Y -> X2. 基本上AugCGAN為我們提供了一個額外的變量,讓我們可以創建具有特定屬性的樣本。例如,如果我們在Y域中有鞋子的輪廓,我們可以生成X域中的樣本,鞋子的顏色是藍色,或橙色,或任何我們選擇的顏色。
如果你喜歡CycleGAN,但想要更多控制轉換過程,你會喜歡這篇論文的。
GAN動力學中一階逼近的局限
這是一篇主要通過簡單示例進行論證的純理論論文。要點是解釋了多判別器更新的意義。這篇論文考慮了極端情況,展示了最優判別器情形下良好的收斂性質。但除此之外,目前而言大概沒什么從業者感興趣的內容。
結語
這些就是ICML上關于生成對抗網絡的論文了。我希望這篇文章對你有幫助。我會在十二月份參加NIPS,如果你想要看到類似這篇的總結,請告訴我。
感謝Karen Trippler和Mihai Ermaliuc的評論!
想要加入對話?歡迎在jakublangr.com上評論,或者發推給我(langrjakub)。我正在撰寫一本關于對抗生成網絡的書,這里有一些樣章:www.manning.com/books/gans-in-action 論智公眾號(ID: jqr_AI)后臺留言icml2018gan可獲取上述所有論文的打包下載地址。
-
GaN
+關注
關注
19文章
2177瀏覽量
76161 -
機器學習
+關注
關注
66文章
8492瀏覽量
134089 -
數據集
+關注
關注
4文章
1223瀏覽量
25276
原文標題:ICML2018對抗生成網絡論文評述
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
【mBot試用體驗】利用mBot制作的賽車游戲,可以利用陀螺儀改變小車的方向,動態跑道【結項】
能量收集利用在汽車上的應用不同的來源
谷歌的Dataset Search開放至今,為什么還搜不到我的數據集?
請問可以利用“相位再同步”功能來實現多個ADF4351分別產生同頻信號嗎?
【0510活動】讓我們進軍鴻蒙!
能量收集在汽車應用中利用多種來源

如何很容易地將數據共享為Kaggle數據集

利用VR讓我們與大自然聯系,成功領略動物眼中的奇妙世界
DeepMind正在開發可以利用基因序列預測蛋白質結構的新AI工具
利用Python和PyTorch處理面向對象的數據集
為什么可以利用FSMC來使用外部RAM
利用 Python 和 PyTorch 處理面向對象的數據集(2)) :創建數據集對象

評論