女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

曠視AI開源新突破:上傳照片即可生成表情包視頻!

AI機械姬 ? 來源:AI機械姬 ? 作者:AI機械姬 ? 2024-07-12 11:20 ? 次閱讀

日前,曠視科技發布了一項新的開源AI人像視頻生成框架——MegActor。該框架讓用戶只需輸入一張靜態肖像圖片和一段視頻(如演講、表情包、rap),便可生成一段表情豐富、動作一致的AI人像視頻。生成的視頻長度取決于輸入的視頻長度。與阿里EMO、微軟VASA等最新AI視頻模型不同,曠視MegActor采用開源方式,供開發者社區使用。MegActor生成的視頻畫質更出色,面部細節更加豐富自然。

wKgZomaQp8CARJnFAAAUzJBUboU053.png

為了展示其泛化性,MegActor甚至可以將VASA中的人物肖像和視頻組合生成,得到生動的表情視頻。即使與阿里EMO的官方案例相比,MegActor也能生成近似的效果。

wKgaomaQp0qAR1g4AAGuNBaURo8083.png

總的來說,無論是讓肖像開口說話、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

論文鏈接:https://arxiv.org/abs/2405.20851

代碼地址:https://github.com/megvii-research/megactor

項目地址:https://megactor.github.io/

MegActor是曠視研究院的最新研究成果。曠視研究院是曠視公司級研究機構,旨在通過基礎創新突破AI技術邊界,以工程創新實現技術到產品的快速轉化。多年來,曠視研究院已成為全球領先的人工智能研究機構。

目前的人像視頻生成領域中,許多工作通常使用高質量的閉源數據進行訓練,以追求更好的效果。而曠視研究院始終堅持全面開源,確保實際效果的可復現性。MegActor的訓練數據全部來自公開可獲取的開源數據集,配合開源代碼,使得感興趣的從業者可以從頭開始完整復現這些效果。

為了完全復刻原始視頻的表情和動作,MegActor采用原始圖像進行驅動,這與多數廠商使用的中間表示方法(如sketch、pose、landmark)不同,能夠捕捉到細致的表情和運動信息。

曠視科技研究總經理范浩強表示,在AI視頻生成領域,我們發現目前主流的骨骼關鍵點控制方式不僅要求用戶提供難以獲取的專業控制信號,同時生成視頻的保真度也不盡如人意。通過研究發現,使用原視頻進行驅動,不僅降低了控制信號的門檻,更能生成保真且動作一致的視頻。

具體來說,MegActor主要由兩個階段構成:

wKgaomaQp2yAMbsSAAINHxF7tf0305.png

使用ReferenceNet對參考圖像進行特征提取,獲取參考圖像的外觀和背景信息;

使用PoseGuider對輸入視頻進行運動和表情信息提取,將這些信息遷移到參考圖像上。

雖然使用原始視頻進行驅動能帶來更豐富的表情細節和運動信息,但也存在ID泄露和背景干擾等挑戰。為此,MegActor采用了條件擴散模型,引入了合成數據生成框架,創建具有一致動作和表情但不同身份ID的視頻,以減輕ID泄露的問題。MegActor還分割了參考圖像的前景和背景,并使用CLIP對背景細節進行編碼,確保背景的穩定性。

在數據訓練方面,曠視研究院團隊使用公開數據集(VFHQ和CeleV)進行訓練,總時長超過700小時。為了避免ID泄露問題,團隊還使用換臉和風格化方法1:1生成合成數據,實現表情和動作一致但ID不一致的數據。此外,團隊使用注視檢測模型處理數據,獲取大約5%的高質量數據進行Finetune訓練。

wKgaomaQp4-Ad7nyAAIrJv12wFw194.png

通過新的模型框架和訓練方法,曠視研究院團隊僅使用了不到200塊V100顯卡小時的訓練時長,最終實現了以下特性:

根據輸入視頻生成任意持續時間的模仿視頻,確保角色身份一致性;

支持各種驅動視頻,如演講、唱歌、表情包等;

支持不同畫風(照片、傳統繪畫、漫畫、AI數字人等);

音頻生成方法相比,MegActor生成的視頻不僅能確保表情和動作一致,更能達到自然程度。

目前,MegActor已經完全開源,供開發者和用戶即開即用。



審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    34145

    瀏覽量

    275243
  • 開源
    +關注

    關注

    3

    文章

    3582

    瀏覽量

    43442
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    發布AIS算法生產平臺V5.0版本

    近日,正式發布自研的算法生產平臺AIS(AI Service)5.0版!此次升級,包括接入DeepSeek等三大核心能力重磅亮相,助力企業AI生產力再躍升!
    的頭像 發表于 03-12 17:18 ?598次閱讀

    運動猿入選2024年度智能體育典型案例

    2025年3月3日,工業和信息化部、國家體育總局聯合公布了“2024年度智能體育典型案例”名單,“運動猿智能體育教育產品方案”成功入選,成為智能青少年體育產品方向的典型案例。此次獲評是對
    的頭像 發表于 03-10 10:04 ?379次閱讀

    AI Agent 應用與項目實戰》----- 學習如何開發視頻應用

    AI助手”功能。 根據需求選擇助手類型,例如應用助手、知識助手或對話助手。對于視頻生成應用,可能需要結合應用助手和對話助手的功能。 完成助手的基礎配置,包括動作意圖、知識庫和對話模型等。這里可以上傳
    發表于 03-05 19:52

    AI賦能銳測控平臺

    自2016年成立以來,簡儀科技致力于打造基于開源技術的銳測控平臺(SeeSharp Platform),建設測控開源生態圈。得益于OpenAI、ChatGPT、DeepSeek、通義千問等A
    的頭像 發表于 02-10 09:23 ?421次閱讀
    <b class='flag-5'>AI</b>賦能銳<b class='flag-5'>視</b>測控平臺

    國內生成AI備案數量突破300款

    服務數量高達238款,占據了總備案數量的絕大部分,充分展示了該領域技術創新和市場需求的強勁動力。這一快速增長不僅反映了國內企業在生成AI技術上的不斷突破,也體現了市場對該類服務的廣泛認可和熱烈追捧。 除了直接備案的
    的頭像 發表于 01-09 11:14 ?765次閱讀

    中標北京市大數據中心感知管理服務平臺二期建設項目

    近日,成功中標北京市大數據中心感知管理服務平臺(二期)建設項目,此次中標不僅是對技術實力和服務能力的認可,更標志著
    的頭像 發表于 12-31 09:20 ?659次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創新之作——AI視頻生成模型Sora。這一新品的發布,無疑為AI技術注入了新的活力。 據悉,Sora與OpenAI旗下的AI工具DALL-E有著
    的頭像 發表于 12-12 09:40 ?609次閱讀

    亮相2024數字科技生態大會

    2024數字科技生態大會上,展示了多項聯網領域的前沿技術及應用成果,包括大模型、行業場景方案以及創新智能終端。
    的頭像 發表于 12-06 10:34 ?626次閱讀

    生成AI工具作用

    生成AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數據的人工智能技術。在此,petacloud.ai小編為您整理
    的頭像 發表于 10-28 11:19 ?622次閱讀

    重慶兩江新區與吉利汽車集團、科技簽署合作協議

    日前,重慶兩江新區與吉利汽車集團、科技簽署戰略合作協議。市委書記袁家軍,市委副書記、市長胡衡華會見了吉利控股集團董事長李書福、科技董事長兼CEO印奇一行并見證簽約。
    的頭像 發表于 09-02 14:13 ?772次閱讀

    三行代碼完成生成AI部署

    OpenVINO2024.2版本跟之前版本最大的不同是OpenVINO2024.2分為兩個安裝分別是基礎生成AI支持,新發布的Ge
    的頭像 發表于 08-30 16:49 ?669次閱讀
    三行代碼完成<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>部署

    聚焦物聯網場景,科技核心技術能力持續升級

    曾經備受青睞的“AI四小龍”之一,科技在更早的時候曾向港交所遞交上市申請,闖關未果后轉向上交所科創板。 ? 科技核心技術能力 ?
    的頭像 發表于 07-25 00:09 ?4760次閱讀

    MediaTek與快手攜手創新,端側視頻生成技術引領AI新紀元

    在科技日新月異的今天,MediaTek與快手再次攜手,于近日宣布了一項重大技術突破——高效端側視頻生成技術的誕生。這項技術不僅是對即將于2024年世界移動通信大會(MWC 2024)上亮相的先進視頻生成技術的有力延續,更是雙方在
    的頭像 發表于 07-05 11:52 ?1590次閱讀

    MediaTek聯合快手推出高效端側視頻生成技術

    只需在設備上選取圖片,應用即可智能地識別照片中的人物和場景,生成自然流暢的視頻佳作,從而顯著提升視頻制作的創意表現和效率。
    的頭像 發表于 07-05 11:23 ?9019次閱讀

    谷歌AI突破:為無聲視頻智能配音

    近日,谷歌DeepMind團隊公布了一項革命性的技術——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術。這一技術的出現,不僅為視頻創作領域帶來了新的可能,也為觀眾帶來了更加豐富的視聽體驗。
    的頭像 發表于 06-21 10:50 ?703次閱讀