百度网盘-黄色视影,少妇扶着墙屁股撅起来动态图,用力插视频

浙江大學和網(wǎng)易伏羲AI實驗室的研究人員開發(fā)出一個端到端的機器學習系統(tǒng)Audio2Face，可以從音頻中單獨生成實時面部動畫，同時考慮到音高和說話風格。

我們都知道動畫里的人物說話聲音都是由后期配音演員合成的。

但即使利用CrazyTalk這樣的軟件，也很難將電腦生成的嘴唇、嘴型等與配音演員進行很好地匹配，尤其是當對話時長在數(shù)十甚至數(shù)百小時的情況下。

但不要氣餒，動畫師的福音來了——Audio2Face問世！

Audio2Face是一款端到端的機器學習系統(tǒng)，由浙江大學與網(wǎng)易伏羲AI實驗室共同打造。

它可以從音頻中單獨生成實時的面部動畫，更厲害的是，它還能調(diào)節(jié)音調(diào)和說話風格。該成果已經(jīng)發(fā)布至arXiv：

arXiv地址：

https://arxiv.org/pdf/1905.11142.pdf

團隊試圖構(gòu)建一個系統(tǒng)，既要逼真又要低延遲

“我們的方法完全是基于音軌設計的，沒有任何其他輔助輸入（例如圖像），這就使得當我們試圖從聲音序列中回歸視覺空間的過程將會越來越具有挑戰(zhàn)。”論文共同作者解釋道，“另一個挑戰(zhàn)是面部活動涉及臉部幾何表面上相關(guān)區(qū)域的多重激活，這使得很難產(chǎn)生逼真且一致的面部變形。”

該團隊試圖構(gòu)建一個同時滿足“逼真”（生成的動畫必須反映可見語音運動中的說話模式）和低延遲（系統(tǒng)必須能夠進行近乎實時的動畫）要求的系統(tǒng)。他們還嘗試將其推廣，以便可以將生成的動畫重新定位到其他3D角色。

他們的方法包括從原始輸入音頻中提取手工制作的高級聲學特征，特別是梅爾頻率倒譜系數(shù)（MFC），或聲音的短期功率譜的表示。然后深度相機與mocap工具Faceshift一起，捕捉配音演員的面部動作并編制訓練集。

深度相機示意圖

之后研究人員構(gòu)建了帶有51個參數(shù)的3D卡通人臉模型，控制了臉部的不同部位（例如，眉毛，眼睛，嘴唇和下巴）。最后，他們利用上述AI系統(tǒng)將音頻上下文映射到參數(shù)，產(chǎn)生唇部和面部動作。

1470個音頻樣本加持，機器學習模型的輸出“相當可以”

團隊使用一個訓練語料庫，其中包含兩個60分鐘、每秒30幀的女性和男性演員逐行閱讀劇本中臺詞的視頻，以及每個相應視頻幀的1470個音頻樣本（每幀總共2496個維度）。

團隊報告說，與ground truth相比，機器學習模型的輸出“相當可以”。它設法在測試音頻上重現(xiàn)準確的面部形狀，并且它一直“很好地”重新定位到不同的角色。此外，AI系統(tǒng)平均只需0.68毫秒即可從給定的音頻窗口中提取特征。

該團隊指出，AI無法跟隨演員的眨眼模式，主要是因為眨眼與言語的相關(guān)性非常弱。不過從廣義上講，該框架可能為適應性強、可擴展的音頻到面部動畫技術(shù)奠定基礎，這些技術(shù)幾乎適用于所有說話人和語言。

“評估結(jié)果顯示，我們的方法不僅可以從音頻中產(chǎn)生準確的唇部運動，還可以成功地消除說話人隨時間變化的面部動作，”他們寫道。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴