我們都知道變色龍可以改變皮膚的顏色紋理,而如今深度學(xué)習(xí)技術(shù)甚至可以做到將一只貓的圖像同時(shí)轉(zhuǎn)變?yōu)楣贰⑸踔联{子和老虎的圖像。這種可以將一張圖片轉(zhuǎn)換為多種不同目標(biāo)的算法不僅為電影和游戲場景制作提供了豐富的素材,更能為自動駕駛迅速和便捷地生成不同路況下豐富的訓(xùn)練數(shù)據(jù),以不斷提高面對不同路況的能力。
由一而多的圖像翻譯
早先研究人員發(fā)現(xiàn)可以利用非監(jiān)督的方法進(jìn)行圖像翻譯,將一幅圖像和視頻轉(zhuǎn)換為另一個。它通過利用來自獨(dú)立域中邊緣分布的圖像來學(xué)習(xí)處于不同域之中的聯(lián)合概率分布。研究人員通過建立共享隱含空間的假設(shè),提出了一個圖像對圖像的非監(jiān)督翻譯框架,并利用對偶GANs實(shí)現(xiàn)了高效的圖像翻譯。在實(shí)驗(yàn)中進(jìn)行了街道場景、動物圖像以及人臉的圖像翻譯過程。
而隨著研究的深入,研究人員們研發(fā)出了新的網(wǎng)絡(luò)結(jié)構(gòu)。這種多模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)將可以同時(shí)將一張圖片轉(zhuǎn)換為多張不同的圖像輸出。類似于早先的圖像翻譯研究,多模態(tài)圖形翻譯使用了兩種深度學(xué)習(xí)技術(shù):非監(jiān)督學(xué)習(xí)和生成對抗網(wǎng)絡(luò)(GANs),其目的在于為機(jī)器賦予更強(qiáng)的想象力,可以讓機(jī)器將陽光燦爛的街道照片變成狂風(fēng)暴雨或者茫茫冬日的不同景色。這種技術(shù)對于無人駕駛有著極大的促進(jìn)作用。與之前的技術(shù)不同,研究人員們通過轉(zhuǎn)換不止能得到一個冬天的實(shí)例,而可以同時(shí)得到一系列不同降雪量的的冬日場景。這意味著單一的數(shù)據(jù)可以生成一系列豐富的、覆蓋更廣泛情況的數(shù)據(jù)集。
為了實(shí)現(xiàn)這一非監(jiān)督圖像的翻譯任務(wù),研究人員們提出了多模態(tài)非監(jiān)督圖像翻譯架構(gòu)(Multimodal Unsupervised Image-to-image Translation ,MUNIT),首先假設(shè)圖像的表示可以被分解成與域無關(guān)的編碼,同時(shí)可以采集到與域相關(guān)的風(fēng)格編碼。為了實(shí)現(xiàn)不同域間的圖像翻譯,作者將內(nèi)容編碼與目標(biāo)域中采樣的風(fēng)格編碼結(jié)合在一起,實(shí)現(xiàn)了多個目標(biāo)樣本的輸出。這種多模態(tài)非監(jiān)督圖像翻譯技術(shù)將圖像內(nèi)容和風(fēng)格分離開來。例如對于圖像中的一只貓來說,它的姿勢是圖像的內(nèi)容而貓的種類則是圖像的風(fēng)格。在實(shí)際翻譯過程中,姿勢是固定的,而風(fēng)格則隨著目標(biāo)的不同而不同。可以是狗狗或者豹子。動物的姿勢是保持不變的,而它的風(fēng)格則可以覆蓋從柯基到美洲豹各色不同的品種。
同樣的技術(shù)還能用于生成一天中不同時(shí)間的場景圖像、不同天氣條件下或者光照條件下的場景。這樣的技術(shù)對于需要大量數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)大有裨益。
除了自動駕駛和深度學(xué)習(xí)領(lǐng)域外,多模態(tài)圖像翻譯技術(shù)還能為游戲公司提供一種迅速創(chuàng)造新角色和新世界的有力工具。同樣藝術(shù)家們也可以生成復(fù)雜或者豐富場景的工作交給機(jī)器去處理,將更多的精力投入到創(chuàng)作的核心上來。
沒數(shù)據(jù)?沒問題!
這一研究主要建立在一種善于生成視覺數(shù)據(jù)的深度學(xué)習(xí)方法——GANs上。一個典型的GANs包含兩個互相競爭的神經(jīng)網(wǎng)絡(luò):一個用于生成圖像而另一個用于判斷生成的圖像是否看起來像真的,或者是假的。GANs在數(shù)據(jù)短缺的時(shí)候會顯示出更強(qiáng)大的能力。
一般的圖像翻譯需要兩個互相關(guān)聯(lián)的數(shù)據(jù)集:如果需要將貓轉(zhuǎn)換為狗或者其他動物的話,需要收集同樣姿勢貓和狗的照片。而這樣的數(shù)據(jù)十分稀缺,有些時(shí)候甚至是不可能收集的。而本文中提出的MUNIT方法則突破了這個限制,使得圖像翻譯的使用范圍大大增加。它無需使用一一對應(yīng)的數(shù)據(jù)即可實(shí)現(xiàn)多模態(tài)的轉(zhuǎn)化。
MUNIT同時(shí)還可以在無需抓取同一視點(diǎn)記錄的情況下為自動駕駛生成大量的訓(xùn)練數(shù)據(jù),可以再同一視角同一地點(diǎn)的精確位置下生成各種交通情況和細(xì)節(jié)的數(shù)據(jù)。除此之外、GANs還免去了對于圖像或者視頻冗長的人工標(biāo)注,節(jié)約了大量的時(shí)間和金錢。
論文的作者表示希望給機(jī)器賦予人類一樣的想象力。就像人類在看風(fēng)景時(shí),無論庭前花開花落,總能想象出春夏秋冬四季變遷的模樣。在眺望風(fēng)景時(shí)候,朝暉夕陰、氣象萬千、四季輪回都了然于胸。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4806瀏覽量
102688 -
自動駕駛
+關(guān)注
關(guān)注
788文章
14182瀏覽量
169380 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5554瀏覽量
122443
原文標(biāo)題:因吹斯汀!看深度學(xué)習(xí)如何將一只貓的圖像同時(shí)轉(zhuǎn)變?yōu)楣贰ⅹ{子和老虎
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)
什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?
專欄 | 深度學(xué)習(xí)在NLP中的運(yùn)用?從分詞、詞性到機(jī)器翻譯、對話系統(tǒng)

深度學(xué)習(xí)在圖像超清化的應(yīng)用

基于深度學(xué)習(xí)的多尺幅深度網(wǎng)絡(luò)監(jiān)督模型

當(dāng)機(jī)器翻譯遇見深度學(xué)習(xí)
圖像識別中的深度學(xué)習(xí)
深度學(xué)習(xí)怎么實(shí)現(xiàn)圖像到圖像的翻譯
深度學(xué)習(xí)中圖像分割的方法和應(yīng)用
基于深度學(xué)習(xí)的圖像修復(fù)模型及實(shí)驗(yàn)對比

評論