UC Berkeley近日發(fā)表了一篇論文,題目簡潔明了:Everybody Dance Now,大家一起跳起來!沒錯(cuò),這個(gè)被網(wǎng)友稱為“mad lab”的實(shí)驗(yàn)室提出了一種框架,把專業(yè)舞蹈演員的動(dòng)作遷移到不會跳舞的人身上,不論是酷酷的街舞還是優(yōu)雅的芭蕾,效果簡直是神同步,流暢度和還原度都非常高。下面跟著論智一起看看這篇論文吧。
我們在這篇文章中提出了一個(gè)簡單的方法進(jìn)行動(dòng)作遷移:首先選擇一支單人跳舞視頻作為源視頻,幾分鐘后,在另一個(gè)目標(biāo)視頻上(完全不會跳舞的人)會呈現(xiàn)同樣的動(dòng)作。我們將這一問題看作是每一幀上圖像到圖像的轉(zhuǎn)換,同時(shí)保證時(shí)間和空間的流暢。用動(dòng)作探測器作為源視頻和目標(biāo)視頻中間的表示,我們學(xué)習(xí)了一種從舞者動(dòng)作畫面到目標(biāo)物體的映射,并且對這一設(shè)置進(jìn)行調(diào)整,讓它與視頻完美融合,同時(shí)還加上了真實(shí)的人臉合成。
先放個(gè)視頻感受一下這驚艷的效果,在后半部分的補(bǔ)充案例中,還展示了芭蕾舞的遷移。可以看到,原視頻中芭蕾舞演員的大腿部分被裙子遮擋,但是映射到目標(biāo)視頻中,大腿動(dòng)作也能正確呈現(xiàn),效果滿分!
簡介
我們提出了一種方法,實(shí)現(xiàn)了動(dòng)作在不同視頻中的不同人物之間的轉(zhuǎn)換。現(xiàn)在有兩段視頻,其中一段是我們希望進(jìn)行合成的目標(biāo)(不會跳舞的人),另一個(gè)是模仿的源視頻(專業(yè)舞者)。我們通過基于像素的端到端通道實(shí)現(xiàn)了這一動(dòng)作遷移。這一方法與過去二十年常見的最近鄰搜索或3D中的重新制定目標(biāo)動(dòng)作不同。通過這一框架,我們讓很多未經(jīng)訓(xùn)練的人跳出了芭蕾和街舞。
為了實(shí)現(xiàn)兩視頻之間每幀的動(dòng)作遷移,我們必須學(xué)習(xí)一種兩個(gè)人物之間的映射。我們的目標(biāo)是在源視頻和目標(biāo)視頻之間進(jìn)行圖像到圖像的轉(zhuǎn)換。然而,我們沒有兩個(gè)目標(biāo)物體做出同樣動(dòng)作的圖片,也就無法直接對這一轉(zhuǎn)換進(jìn)行監(jiān)督學(xué)習(xí)。即使視頻中的兩個(gè)人做出一系列同樣的動(dòng)作,還是很難提取每一幀的姿勢,因?yàn)樯眢w形狀和風(fēng)格完全不同。
我們發(fā)現(xiàn),能體現(xiàn)身體各部分位置的關(guān)鍵點(diǎn)可以用作二者之間的表示。于是,我們設(shè)計(jì)了用來體現(xiàn)動(dòng)作的“中間表示(火柴人)”,如圖所示:
從目標(biāo)視頻中,我們用動(dòng)作識別器為每一幀制作了(火柴人, 目標(biāo)人物圖像)的組合。有了這樣相關(guān)的數(shù)據(jù),我們就能用監(jiān)督方法學(xué)習(xí)火柴人和目標(biāo)人物之間圖像到圖像的轉(zhuǎn)換模型了。于是,我們的模型通過訓(xùn)練,可以生成個(gè)性化的視頻。之后,為了將源視頻的動(dòng)作遷移到目標(biāo)視頻中,我們把火柴人輸入到經(jīng)過訓(xùn)練的模型后,得到和源視頻中人物相同的目標(biāo)動(dòng)作。另外,為了提高生成的質(zhì)量,我們添加了兩個(gè)元素。為了使生成的模型更流暢,我們都會根據(jù)上一幀對目前的幀進(jìn)行預(yù)測。為了提高生成人臉的真實(shí)性,我們還加入了經(jīng)過訓(xùn)練的GAN來生成目標(biāo)人物的臉部。
具體方法
這一任務(wù)大致分為三步:動(dòng)作檢測、全局動(dòng)作規(guī)范化和動(dòng)作映射。訓(xùn)練和遷移過程如下圖所示:
模型通過探測器P創(chuàng)造目標(biāo)視頻中人物所對應(yīng)的火柴人。訓(xùn)練時(shí),我們學(xué)習(xí)了映射G和一個(gè)對抗判別器D。D的作用是嘗試判斷火柴人和視頻中的人是否符合。
下面一行是遷移過程。我們用動(dòng)作探測器P:Y’→X’來獲得源視頻中的火柴人形象,這個(gè)火柴人形象通過歸一化處理變成了為目標(biāo)人物設(shè)計(jì)的火柴人。接著對其應(yīng)用經(jīng)過訓(xùn)練的映射G即可。
為了讓效果更真實(shí),我們還專門增加了生成對抗網(wǎng)絡(luò)設(shè)置,讓面部更真實(shí),效果也顯著提高。
網(wǎng)絡(luò)架構(gòu)
為了提取身體、面部和手部的動(dòng)作關(guān)鍵點(diǎn),我們使用了最先進(jìn)的動(dòng)作檢測器OpenPose。在圖像轉(zhuǎn)換階段,我們使用了Wang等人提出的pix2pixHD模型。對于面部圖像的生成,我們沒有使用完全的pix2pixHD生成器,而是利用pix2pixHD的全局生成器。
實(shí)驗(yàn)對比
由于我們沒有標(biāo)準(zhǔn)答案,為了對比兩個(gè)不同視頻中的目標(biāo)人物,我們分析了目標(biāo)人物的重建過程(也就是將源視頻人物當(dāng)做目標(biāo)人物)。另外,為了評估每一幀的生成質(zhì)量,我們測量了結(jié)構(gòu)相似度(SSIM)和學(xué)習(xí)認(rèn)知圖像補(bǔ)丁相似性(LPIPS)。
除此之外,我們還在每個(gè)系統(tǒng)的輸出上應(yīng)用了動(dòng)作檢測器P,比較這些重建之后的關(guān)鍵點(diǎn)和原始的動(dòng)作有何不同。
遷移結(jié)果。最上方的是源目標(biāo)人物,中間是對應(yīng)的“火柴人”,最下面一行是輸出的目標(biāo)人物動(dòng)作
我們對比了標(biāo)準(zhǔn)pix2pixHD、只含有流暢度設(shè)置的我們模型版本(T.S.)以及我們模型的最終版本(有流暢設(shè)置和人臉GAN)。首先,三種模式下相似度的對比如圖:
而在臉部區(qū)域,三種生成圖像的質(zhì)量對比:
可以看到,我們的完整版模型的分?jǐn)?shù)是最好的。
討論
看過這篇論文后,許多人只有一個(gè)反應(yīng):“Amazing?。 钡拇_,效果這么好的視頻生成技術(shù)未來可應(yīng)用的場景有很多,比如電影拍攝、VR動(dòng)畫等等。但也有人表示擔(dān)心,會不會像之前的deepfakes換臉一樣,再產(chǎn)生一堆虛假視頻?
-
圖像
+關(guān)注
關(guān)注
2文章
1092瀏覽量
40990 -
遷移
+關(guān)注
關(guān)注
0文章
34瀏覽量
8034
原文標(biāo)題:不如跳舞!伯克利的舞蹈動(dòng)作遷移效果逆天
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
經(jīng)典的QP框架原理

怎么從Harmony 1.06遷移到1.07.01?
EDK項(xiàng)目遷移到vivado的建議有哪些?
分享一種智能網(wǎng)卡對熱遷移支持的新思路
如何使用Neon intrinsic的矢量處理代碼遷移到氦intrinsic
從電源架構(gòu)遷移到ARM的應(yīng)用說明
可穿戴在人身上的驚人科技設(shè)備
一場探索人類與太陽關(guān)系的VR舞蹈體驗(yàn)
圖像遷移最新成果:人體姿勢和舞蹈動(dòng)作遷移
谷歌與Wayne McGregor合作 研發(fā)出能預(yù)測特定風(fēng)格舞蹈動(dòng)作的人工智能
一種能夠預(yù)測特定風(fēng)格舞蹈動(dòng)作的人工智能
Hayden Barnes:微軟不會將Windows遷移到Linux

評論