近日,杜克大學(xué)的研究團(tuán)隊(duì)研發(fā)了一個(gè)AI圖像生成模型PULSE。PULSE可以在5秒鐘內(nèi)將低分辨率的人像轉(zhuǎn)換成清晰、逼真的人像。要指出的是,PULSE所做的工作并不是把輸入的低分辨率人像變成一張高分辨率的人像,而是“一對(duì)多”地輸出許多張面部細(xì)節(jié)各不相同的高分辨率人像。比如,用戶(hù)輸入一張16*16分辨率的圖像,PULSE可輸出一組1024*1024分辨率的圖像。
這項(xiàng)研究于本月在計(jì)算機(jī)視覺(jué)與模式識(shí)別頂會(huì)CVPR 2020上發(fā)表,論文標(biāo)題為《PULSE:通過(guò)對(duì)生成模型的潛在空間探索實(shí)現(xiàn)自監(jiān)督照片上采樣(PULSE:Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models)》。
論文鏈接:https://drive.google.com/file/d/1fV7FsmunjDuRrsn4KYf2Efwp0FNBtcR4/view
PULSE項(xiàng)目官網(wǎng):http://pulse.cs.duke.edu/
GitHub:https://github.com/adamian98/pulse
一、PULSE:能為天文學(xué)/醫(yī)學(xué)提供參考
在好萊塢間諜電影中,肩負(fù)拯救世界重任的特工常常采用高科技手段、把一張模糊的兇犯照片還原成清晰的人臉照片。現(xiàn)實(shí)中,許多研究人員致力于用AI技術(shù)使電影中的炫酷場(chǎng)景成真。但是,現(xiàn)有AI模型的性能普遍較差,生成的人臉圖像往往與照片主人公的真實(shí)長(zhǎng)相并不相似。
杜克大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)教授Cynthia Rudin指出,這是因?yàn)榈拖袼貓D像中的信息較少,AI模型無(wú)法準(zhǔn)確地“補(bǔ)足”缺失信息、進(jìn)而還原出清晰人臉圖像。因此,用AI技術(shù)對(duì)模糊人像進(jìn)行面部識(shí)別十分困難。
Rudin團(tuán)隊(duì)認(rèn)為,雖然不能用于模糊人像的面部識(shí)別,但是這類(lèi)AI模型可以作為一種分類(lèi)和探索工具,用于天文學(xué)、醫(yī)學(xué)等難以獲得清晰圖像的領(lǐng)域。也就是說(shuō),基于模糊圖像中缺失信息的各種可能性,AI模型可以生成許多清晰的圖像,生成的多種圖像可以為天文學(xué)、醫(yī)學(xué)等領(lǐng)域研究人員提供參考。
基于這種設(shè)想,杜克大學(xué)研究人員研發(fā)了基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)的圖像超分辨率模型PULSE。PULSE模型基于NVIDIA的StyleGAN算法進(jìn)行開(kāi)發(fā)。
二、降尺度損失方法:用生成圖像“倒推”模糊圖,相似才能輸出
為了保證輸出圖像與輸入圖像的“對(duì)應(yīng)性”,研究人員在PULSE模型中應(yīng)用了一種“降尺度損失(downscaling loss)”方法。
當(dāng)PULSE模型的生成網(wǎng)絡(luò)提議以一張清晰圖像作為輸出時(shí),判別網(wǎng)絡(luò)會(huì)把這張清晰圖像的分辨率降低到與輸入圖像相等的水平。然后,判別網(wǎng)絡(luò)會(huì)對(duì)比降尺度損失圖像與輸入圖像之間的相似性。
只有在降尺度損失圖像與輸入圖像相似性較高時(shí),判別網(wǎng)絡(luò)才會(huì)判定生成網(wǎng)絡(luò)提議的清晰圖片可以作為輸出。
▲基于同一張模糊的圖像,PULSE可以生成面部細(xì)節(jié)不同的清晰圖像
三、40位評(píng)估者參與打分,PULSE模型MOS得分最高
研究人員用高分辨人臉數(shù)據(jù)集CelebA HQ評(píng)估PULSE的性能。為了進(jìn)行對(duì)比,研究人員利用CelebA HQ數(shù)據(jù)集訓(xùn)練了監(jiān)督模型BICBIC、FSRNET和FSRGAN。
所有模型均以16*16分辨率的圖像作為輸入,BICBIC、FSRNET和FSRGAN模型以128*128分辨率圖像作為輸出,PULSE模型以128*128分辨率圖像和1024*1024分辨率圖像作為輸出。
評(píng)估結(jié)果顯示,圖像質(zhì)量方面,PULSE模型在生成眼睛、嘴唇等圖像細(xì)節(jié)方面的能力優(yōu)于其他模型。
▲PULSE生成圖像的嘴唇、眼睛更加清晰
接下來(lái),研究人員用平均意見(jiàn)分?jǐn)?shù)(MOS)測(cè)試來(lái)定量評(píng)估模型的分辨率。研究人員應(yīng)用6個(gè)模型生成128*128分辨率的圖像,邀請(qǐng)40位評(píng)估者對(duì)6個(gè)模型的輸出結(jié)果進(jìn)行打分。
用于對(duì)比的模型分別是:HR、Nearest、Bicubic、FSRNet、FSRGAN。
結(jié)果顯示,PULSE的MOS分?jǐn)?shù)最高,為3.60,即評(píng)估者認(rèn)為PULSE模型生成的圖像分辨率最高。
結(jié)語(yǔ):代碼已在GitHub開(kāi)源,用戶(hù)擔(dān)憂種族偏見(jiàn)
本項(xiàng)研究中,杜克大學(xué)研發(fā)的PULSE模型能夠基于一張模糊的人像,生成多張面部細(xì)節(jié)不同的清晰人像,為使用者提供一個(gè)可能的參考范圍。目前,研究團(tuán)隊(duì)已將模型代碼在GitHub開(kāi)源,鼓勵(lì)其他開(kāi)發(fā)者進(jìn)行實(shí)驗(yàn)。
研究人員稱(chēng),在未來(lái),PULSE或可被用于天文學(xué)、醫(yī)學(xué)等領(lǐng)域。比如,一位天文學(xué)研究人員可以輸入一張模糊的黑洞圖像,并獲得許多可能的天體照片。
同時(shí),也有人對(duì)PULSE的種族偏見(jiàn)問(wèn)題表示擔(dān)憂。有Twitter用戶(hù)爆料稱(chēng),其在PULSE模型中輸入深膚色種族(比如奧巴馬的照片)的人臉照片后,PULSE輸出了白人的照片。研究人員稱(chēng),目前他們正嘗試通過(guò)引入更廣泛的數(shù)據(jù)集解決這一問(wèn)題。
-
圖像
+關(guān)注
關(guān)注
2文章
1092瀏覽量
41026 -
面部識(shí)別
+關(guān)注
關(guān)注
1文章
375瀏覽量
27072 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1307瀏覽量
25002
發(fā)布評(píng)論請(qǐng)先 登錄
利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成
字節(jié)豆包大模型團(tuán)隊(duì)成立AGI長(zhǎng)期研究團(tuán)隊(duì)Seed Edge
兩大AI模型性能提升 登上國(guó)際榜單

胡瀚接棒騰訊多模態(tài)大模型研發(fā)
借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

評(píng)論