說起“教授”計算機如何完成人類工作,生成式對抗系統(tǒng)(GAN)是現(xiàn)有最有效的手段之一。雖然人們一直被告知“競爭可以激發(fā)出更好的表現(xiàn)”,但是只有在有了生成式對抗系統(tǒng)之后這一“從競爭中學習”的邏輯才被發(fā)展到了造福產(chǎn)業(yè)生產(chǎn)的高度。
具體來說,生成式對抗系統(tǒng)是由不同的AI實體彼此競爭,以達到更好地解決自己任務(wù)的目的。想象一下,如果有一個惡意軟件程序和一個安保機器人程序同時對抗,彼此都毫不放松的想要在對方的制約下更好的完成自己的職責。那么在這個過程中,他們雙方都可以將自己的任務(wù)(入侵VS保護)完成的越來越好。
生成式對抗系統(tǒng)最初是由蒙特利爾大學的 Ian Goodfellow 首先創(chuàng)造出來。而最近,它已經(jīng)向人們顯示出了“無監(jiān)督學習”的強大威力。
那么究竟生成式對抗系統(tǒng)是如何工作的呢?
每個生成式對抗系統(tǒng)都有兩個相互競爭的神經(jīng)網(wǎng)絡(luò)。其中一個將噪音錄入并且生成樣本(生成器)。而另一網(wǎng)絡(luò)則能夠分辨正常的實驗數(shù)據(jù)和從生成器獲得的樣本(分辨器)。這兩個網(wǎng)絡(luò)在進行一個持續(xù)的游戲,生成器會一直學習如何能夠成功欺騙分辨器,而分辨器則能逐步增強自己分辨兩種數(shù)據(jù)的能力。這兩個系統(tǒng)同時接受長期的訓練,終于在百萬次的“對抗”之后,生成器生成的樣本已經(jīng)和真實的數(shù)據(jù)幾乎沒有差異。
簡單來說,生成器就是一個造假者不斷想要制造虛假的資料,而分辨器則是警察,其職責就是將虛假的資料分辨出來。因為整個過程都是被現(xiàn)有計算機器自動化執(zhí)行的,生成式對抗系統(tǒng)已經(jīng)可以實現(xiàn)許多令人驚嘆的任務(wù)。而以下就是至今為止生成式對抗系統(tǒng)最為驚艷世界的應(yīng)用。
1
當機器有了想象力
谷歌的Deep Dream可以制造出有著幻覺效果的圖像
Google Brain的研究者已經(jīng)找到了可以從視覺上展現(xiàn)他們的精神網(wǎng)絡(luò),Google Net,如何看待事物本質(zhì)的方法。而通過這種方法,生成式對抗系統(tǒng)制造出了可以被稱為有著迷幻效果圖像。
其實,這些如夢似幻的圖片,是一個給圖片分類的功能刻意過度處理圖像時產(chǎn)生的副產(chǎn)品。而在這個過程中涉及到的主要系統(tǒng)就是Deep Dream。
Deep Dream究竟是如何工作的呢?你首先要給他一個圖像,然后他會主動去尋找他在之前訓練中學會的認識的一切。神經(jīng)網(wǎng)絡(luò)可能會發(fā)現(xiàn)一些類似于一只狗,一個房子這一類的意象。而Google Deep Dream就可能強化這些被認出來的事物。
打個比方,如果現(xiàn)有的認知網(wǎng)絡(luò)在你輸入一個圖像時會認為“看,這個圖像有40%的可能是一只狗”,那么,下一次,它會在自動完善后說:“看,這有60%的可能性是一只狗。”這個過程會一直持續(xù)到被輸入的圖片可以被轉(zhuǎn)化成在神經(jīng)系統(tǒng)看來完全就是一只狗或者其他事物為止。并且,在這樣不斷轉(zhuǎn)化被分類的圖像的過程中,系統(tǒng)創(chuàng)造了看起來超脫塵世的迷幻圖像。
Google的Deep Dream以這樣的方式逆轉(zhuǎn)了我們傳統(tǒng)認識中,輸入一個圖形就會生成一個對應(yīng)輸出結(jié)果的固定思維。如今,每個輸入的圖像都會被認知系統(tǒng)不斷改進,直到它可以完全的理解并進行最佳分類。
2
讓機器模仿人類
通過生成式對抗系統(tǒng)模仿學習的過程
一群AI研究人員希望能夠用不同的方式去建構(gòu)能自學的人工智能,而不是沿用傳統(tǒng)的建立在獎勵機制上的方法。
他們給了人工智能一套真實的展示數(shù)據(jù)作為輸入指令,而根據(jù)這套數(shù)據(jù),人工智能就可以學習并且嘗試模仿同樣的動作。
在這個模型中,Jonathan Ho和Stefano Ermon展示了一種全新的模仿學習的方法。在標準的強化學習系統(tǒng)中,人們總是要設(shè)計一個獎勵功能來向人工智能描述他們應(yīng)該做出怎樣的行為。然而,在實際操作中,這會需要昂貴的“實驗-糾錯“的過程來將保證細節(jié)的正確。但是,在模仿學習的設(shè)定下,人工智能可以直接向樣本的展示如何去學習,從而完全消除了去設(shè)計一個獎勵功能的需要。
3
指馬為斑馬,變冬為夏
圖像到圖像的生成
通過已有的圖像來生成新的圖像是生成系統(tǒng)的一個非常有趣的應(yīng)用。在試驗中,研究者們已經(jīng)可以改變視頻中的動物,或者圖片中的季節(jié)。
這一任務(wù)的目標是學習如何通過一整套圖像對(image pair)去充分認識輸入與輸出的圖像的聯(lián)系與區(qū)別。然而,在多數(shù)情況中,成對的訓練數(shù)據(jù)并不好找。而解決這一問題的方法就是使用兩個完全相對的映像,一方的輸出圖像被設(shè)定成正好是對方的輸入圖像。以這樣的方法,人們得以用非常少量的數(shù)據(jù)讓人工智能認識到兩個圖像的真實聯(lián)系(無監(jiān)督學習)。
4
將簡略素描變成豐滿畫作
通過輪廓生成圖像
逼真的圖像處理是一項艱巨的任務(wù),因為它需要人工智能通過一個被用戶設(shè)定的角度去豐富圖像的表現(xiàn),但同時他也要能夠確保最終輸出的逼真效果。這著實需要相當高超的技巧。而一個藝術(shù)家可能需要數(shù)年的持續(xù)訓練才可以達到這樣的程度。
研究此項技術(shù)的人工智能研究人員之前一直是如何做的呢?他們創(chuàng)造了一個模型。當人們給這個模型一個物體的輪廓時,他可以成功認出這個物體,然后基于輪廓生成一個逼真的實際圖像。
然而,在近期的一篇論文中,一位作者提議使用Generative Adversarial Neural Network(生成式對立神經(jīng)網(wǎng)絡(luò))來使人工智能可以直接通過自然圖像背后的數(shù)據(jù)進行學習。這樣的模型自動調(diào)節(jié)了輸出圖像的編輯,使其盡可能逼真。同時,這樣的處理可在約束優(yōu)化的條件下實現(xiàn)近乎于實時的執(zhí)行。這項技術(shù)如果可以進一步發(fā)展,那我們可以期待,未來,人工智能可以將人們的草稿變成新的圖形,又或者是將一幅固定圖像改變地與目標圖像無限接近。
5
看字畫圖
從字到圖的自動合成
根據(jù)文本自動合成逼真圖片的技術(shù)令人向往。最近,深度卷積生成式對抗網(wǎng)絡(luò)已經(jīng)可以識別某些特定種類的文章然后生成非常引人注目的圖片,例如面龐,唱片封面和房間內(nèi)部裝飾。
這個模型被同時包含文本和他們相應(yīng)圖片的樣本數(shù)據(jù)喂養(yǎng)著。當人們提供了任何一個事物的描述時,這個模型就會開始自動生成對應(yīng)的圖像。
在這一技術(shù)中,從文本到圖像的合成其實基于兩個步驟:首先,人工智能需要學習并識別文本中展現(xiàn)出重要視覺細節(jié)的部分,然后,通過這些特定的特點來合成一個足以欺騙人類的逼真圖像。
6
讓電腦因為好奇而學習
好奇會是深層神經(jīng)網(wǎng)絡(luò)持續(xù)探索的真實動因
在現(xiàn)實社會中,人工主體可以收到的外部獎勵基本不存在。而一個被動的程序是無法主動進化并學習的。因此,好奇心能夠作為一個內(nèi)在獎勵的信號幫助人工主體去探索他的周圍環(huán)境并且學習之后對其有用的技能——積極的學習者一定比那些被動懶惰的人表現(xiàn)得好得多。
在這樣一個模型里,好奇心其實是每當AI預(yù)測到自己的未來行動時就會發(fā)出錯誤預(yù)警。
這樣的機器人程序也可以同時通過程序員建造的獎勵系統(tǒng)來幫助他學習。
如果我們將人工主體想象成一個幼兒。一個沒有父母監(jiān)督的孩子非常可能會忍不住去觸碰發(fā)燙的鍋,隨即領(lǐng)悟到這個東西這么燙讓我這么疼,所以之后我一定不能夠再碰了。好奇心驅(qū)使他去探索,而獎勵機制可以告訴他這件事情是好是壞。
這樣一個“好奇心”驅(qū)動的學習是基于以下幾點判斷建造的:
1)極少的外部獎勵會使得好奇心與外界環(huán)境接觸并達成目標的欲望極具減弱
2)比起沒有外部獎勵的探索,好奇心驅(qū)動的人工主體可以在學習時更加有效率
3)對于未知情景進行概括,可以使人工主體將它們之前有過的經(jīng)歷和知識轉(zhuǎn)化為面對新環(huán)境的智慧,而不是兩眼一抹黑地從頭開始學習
這一方法也可以在以下兩個游戲環(huán)境中來檢驗:VizDoom和超級瑪麗兄弟。
7
AI設(shè)計游戲
使用生成式對抗系統(tǒng)來設(shè)計游戲的用戶界面
想想如果我們可以生成令人信服的視頻游戲的圖像界面,那么我們就可以復制粘貼這些界面的一些元素然后為我所用。
這一技術(shù)的目標是生成一組風格統(tǒng)一的游戲圖像。為了達到這個目的,這個程序需要集結(jié)不同游戲的一系列圖像。然后, 通過已有圖像的各個部分來生成新的獨特的圖形,作為新游戲的背景界面。
8
預(yù)測視頻中下一步會發(fā)生什么
基于場景動態(tài)特性生成視頻
理解物體的運動趨勢和場景動態(tài)特性是計算機視覺的核心問題。為了實現(xiàn)視頻識別和視頻生成,我們需要一個場景轉(zhuǎn)換的模型。然而,制造這樣一個動態(tài)模型太有挑戰(zhàn)性,畢竟物體和場景都有無數(shù)種改變的方向。
而這樣看似不可能的任務(wù)被一個分割了前景和背景的模型實現(xiàn)了。這個模型強調(diào)了背景的固定性,從而將神經(jīng)網(wǎng)絡(luò)的大部分精力集中在了學習前景物體的移動方向上。同時,這些場景也被分門別類地分割開來,使得人工主體對于前景物體移動方向的預(yù)測更為準確。
9
生成逼真的人工臉
神經(jīng)識別人聯(lián)系統(tǒng)
“Neural Faces”是一種可以生成人工(而不是真實的)人臉的一款人工智能技術(shù)。他的基礎(chǔ)就是由Facebook 的AI團隊開發(fā)的深度卷積生成式對抗網(wǎng)絡(luò)。
這個AI團隊,使用包含了100個0到1之間的實數(shù)的Z向矢量來生成一幅圖像。之后,這個生成器就可以逐步學習人類圖像的分布。它可以逐步學會如何生成可以蒙混分辨器的新臉,而分辨器也同時在分辨生成臉和真實人臉上越來越熟練。
10
改變照片中的面部表情和特征
使用生成式對抗網(wǎng)絡(luò)的向量運算
在一次實驗中,研究人員通過一系列的樣本圖像就已經(jīng)可以成功生成人臉的各種表情。比如說,他可以把一張沒有笑的臉變成微笑的,在臉上添加裝飾品,或者強調(diào)面部的一些特征。
這一功能的基礎(chǔ)方法,是將圖像的每一列以 X 向矢量代表,然后通過 X 的平均數(shù)來生成 Y 向矢量的中位數(shù)。之后,在 Y 向矢量上進行例如添加和減少的算術(shù)運算,從而形成一個新的 Z 向矢量,即新圖像。將 Z 向矢量輸入生成器從而生成上面最右邊的結(jié)果圖。
我們可以自信的進行其他的屬性操作,例如放大縮小,轉(zhuǎn)換方向等等。為了達到這樣的目的,我們需要將看向左邊和右邊的人臉的圖像樣本平均為一個人臉的左右向矢量。然后,通過加入對應(yīng)著圖像矢量的軸的“插值“,我們就可以成功地對這些人臉進行這些更高級的改變了。
結(jié)論
我們現(xiàn)在還處于生成式對抗網(wǎng)絡(luò)發(fā)展的初期。以上的這些例子,雖然現(xiàn)在看起來已經(jīng)頗為令人鼓舞,但是這仍然非常基本。對于我們工程師來說,它給予了我們一個訓練 Neural Nets 來完成任何復雜的人類任務(wù)的光明路徑。它也同時可以證明創(chuàng)造力已經(jīng)不是一個只有人類才有的特征了。
-
AI
+關(guān)注
關(guān)注
87文章
34324瀏覽量
275513 -
GaN
+關(guān)注
關(guān)注
19文章
2179瀏覽量
76205
原文標題:盤點 AI 驚艷世界的10個瞬間
文章出處:【微信號:melux_net,微信公眾號:人工智能大趨勢】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
生成式人工智能認證:重構(gòu)AI時代的人才培養(yǎng)與職業(yè)躍遷路徑
?Diffusion生成式動作引擎技術(shù)解析
使用OpenVINO GenAI和LoRA適配器進行圖像生成

評論