3 月 19 日,Google 在其官方博客上發(fā)布了關(guān)于 VLOGGER AI 模型的相關(guān)信息。這是一款利用用戶提供的肖像照片和音頻內(nèi)容,使人物生動地呈現(xiàn)音頻內(nèi)容并具備豐富面部表情的人工智能程序。
具體來說,VLOGGER AI 采用一種適應(yīng)虛擬肖像的多模態(tài) Diffusion 模型,通過 MENTOR 數(shù)據(jù)庫進行訓(xùn)練,涵蓋了超80萬個人物肖像及超過2200小時的視頻數(shù)據(jù)。得益于此,VLOGGER 可以生成各種族、各年齡段、穿著多樣、姿態(tài)各異的肖像視頻。
研發(fā)團隊指出,相較于之前的同類產(chǎn)品,VLOGGER 的獨特之處在于無需針對每個使用者進行單獨培訓(xùn),且不受限于人臉檢測和裁剪,能產(chǎn)出完整的圖像,且能夠處理更多元化的情境如可見的身軀或者其他身份特征,這對于真實再現(xiàn)人物交流過程至關(guān)重要。
谷歌將 VLOGGER 視為通往“通用聊天機器人”未來的關(guān)鍵一步,使人工智能能以自然的語音、手勢和眼神等方式與人類交互。除此之外,VLOGGER 還可用作報告、教育領(lǐng)域以及旁白等方面的輔助工具,并能對已有的電影進行剪輯和表情調(diào)整。
-
Google
+關(guān)注
關(guān)注
5文章
1787瀏覽量
58684 -
模型
+關(guān)注
關(guān)注
1文章
3488瀏覽量
50008 -
VLogger
+關(guān)注
關(guān)注
0文章
5瀏覽量
8404
發(fā)布評論請先 登錄
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?
谷歌“減法”新動作:砍掉耳機按鍵喚醒朗讀功能

NVIDIA推出面向RTX AI PC的AI基礎(chǔ)模型
借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

評論