女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

字節(jié)跳動推出一款顛覆性視頻模型—Boximator

jf_WZTOguxH ? 來源:Boximator論文 ? 2024-02-20 13:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源|AIGC開放社區(qū)

在 Sora 引爆文生視頻賽道之前,國內(nèi)的字節(jié)跳動也推出了一款顛覆性視頻模型——Boximator。

與 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通過文本精準(zhǔn)控制生成視頻中人物或物體的動作。

例如,下雨天,大風(fēng)把一位女生的雨傘吹走了。目前,很少有視頻模型能精準(zhǔn)做到這一點(diǎn)。

Boximator 案例賞析

我們先看一下 Boximator 與 Gen-2、Pink1.0,在使用相同的文本提示詞、圖像生成的視頻,所表現(xiàn)出來的不同動作。

為了方便觀察,「AIGC 開放社區(qū)」將對比視頻整合在一起,最左邊的是 Boximator 生成的視頻。

一個(gè)可愛的 3D 男孩站著,然后走路

在這個(gè)案例中,Pika 1.0 生成的視頻男孩只是站著沒有走動,Gen-2 的視頻走動了但不明顯,只有 Boximator 產(chǎn)生了明顯的走動動作。

一位英俊的男人用他的右手從口袋里拿出一朵玫瑰,并且在看著這朵玫瑰

這個(gè)案例 Pika 1.0 和 Gen-2 表現(xiàn)的都非常不好,男士沒有掏出玫瑰花的動作。Boximator 再一次完美理解文本語義并做出了相應(yīng)的動作。

往杯子里加紅酒

這個(gè)案例主要展示了控制物體動作的能力,Pika 1.0 和 Gen-2 都做出了倒酒的動作,但是杯子里的酒沒有明顯上升的動作。只有 Boximator 做到了倒酒 + 上升兩個(gè)動作。

看了這 3 個(gè)案例,能感受到 Boximator 對文本語義精準(zhǔn)理解,以及對動作控制的強(qiáng)大功能了吧。

Boximator 模型介紹

為了實(shí)現(xiàn)對視頻中物體、人物的動作控制,Boximator 使用了“軟框”和“硬框”兩種約束方法。

硬框:可精確定義目標(biāo)對象的邊界框。用戶可以在圖片中畫出感興趣的對象,Boximator 會將其視為硬框約束, 在之后的幀中精準(zhǔn)定位該對象的位置。

22fcfe7e-cfb2-11ee-a297-92fbcf53809c.png

軟框:軟框定義一個(gè)對象可能存在的區(qū)域, 形成一個(gè)寬松的邊界框。對象需要停留在這個(gè)區(qū)域內(nèi), 但位置可以有一定變化,實(shí)現(xiàn)適度的隨機(jī)性。

兩類框都包含目標(biāo)對象的 ID, 用于在不同幀中跟蹤同一對象。此外, 框還包含坐標(biāo)、類型等信息的編碼。

控制模塊和訓(xùn)練策略

控制模塊可以將框約束的編碼與視頻幀的視覺編碼結(jié)合,用來指導(dǎo)視頻的精準(zhǔn)動作生成。包含框編碼器和自注意力層兩大塊。

框編碼器:將框的坐標(biāo)、ID、類型等信息, 通過 Fourier 編碼和 MLP 映射為控制向量。

自注意力層:將框的控制向量與視頻幀的視覺向量通過自注意力建模其關(guān)系, 學(xué)習(xí)將框指導(dǎo)幀生成。

訓(xùn)練策略方面,Boximator 主要分為兩個(gè)階段: 自跟蹤階段,訓(xùn)練模型的同時(shí)生成視頻內(nèi)容和對應(yīng)的框,并簡化框與對象的關(guān)系學(xué)習(xí)。

正常訓(xùn)練,訓(xùn)練模型只生成視頻內(nèi)容, 框的內(nèi)在表達(dá)已經(jīng)學(xué)會指導(dǎo)對象生成。此外, 訓(xùn)練還使用多階段策略,逐步過渡從硬框到軟框的約束, 以及適當(dāng)融合無框數(shù)據(jù)。

Boximator 實(shí)驗(yàn)數(shù)據(jù)

為獲得視頻訓(xùn)練數(shù)據(jù), 研究人員從 WebVid-10M 數(shù)據(jù)集中,過濾出 110 萬段動態(tài)明顯的視頻片段, 并自動為其注釋了 220 萬個(gè)對象的邊界框。并在 PixelDance 和 ModelScope 這兩個(gè)模型上訓(xùn)練了 Boximator。

實(shí)驗(yàn)數(shù)據(jù)顯示,Boximator 在保持原模型視頻質(zhì)量, 具有非常強(qiáng)大的動作控制能力。同時(shí)可以作為一種插件,幫助現(xiàn)有視頻擴(kuò)散模型提升生成質(zhì)量。

在 MSR-VTT 數(shù)據(jù)集上, 無論是視頻質(zhì)量還是框與對象對齊精度方面,Boximator 都優(yōu)于原模型。在人類評估中,Boximator 生成的視頻也在質(zhì)量和運(yùn)動控制上明顯超過原模型。

239eb6ce-cfb2-11ee-a297-92fbcf53809c.png

字節(jié)跳動的研究人員表示,目前該模型處于研發(fā)階段,預(yù)計(jì) 2-3 個(gè)月內(nèi)發(fā)布測試網(wǎng)站。讓我們期待一下國內(nèi)挑戰(zhàn) Sora 的產(chǎn)品誕生吧!




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 字節(jié)跳動
    +關(guān)注

    關(guān)注

    0

    文章

    347

    瀏覽量

    9479
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    83

    瀏覽量

    481

原文標(biāo)題:字節(jié)跳動推出顛覆性文生視頻模型,可自由控制動作!

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    字節(jié)豆包大模型團(tuán)隊(duì)提出稀疏模型架構(gòu)

    字節(jié)跳動豆包大模型Foundation團(tuán)隊(duì)近期研發(fā)出UltraMem,種創(chuàng)新的稀疏模型架構(gòu),旨在解決推理過程中的訪存問題,同時(shí)確保
    的頭像 發(fā)表于 02-13 15:25 ?634次閱讀

    字節(jié)跳動否認(rèn)趙明加盟及自研手機(jī)傳聞

    近日,市場傳出榮耀前CEO趙明即將加盟字節(jié)跳動,并可能主導(dǎo)其手機(jī)業(yè)務(wù)的消息。與此同時(shí),還有傳聞稱字節(jié)跳動有意推出主打AI概念的手機(jī)產(chǎn)品,這
    的頭像 發(fā)表于 02-10 09:12 ?569次閱讀

    字節(jié)跳動即將推出多模態(tài)視頻生成模型OmniHuman

    字節(jié)跳動旗下站式AI創(chuàng)作平臺即夢AI即將迎來重大更新,全新多模態(tài)視頻生成模型OmniHuman即將上線。這款
    的頭像 發(fā)表于 02-08 10:53 ?747次閱讀

    字節(jié)跳動發(fā)布OmniHuman 多模態(tài)框架

    2 月 6 日消息,字節(jié)跳動近日發(fā)布了項(xiàng)重大成果 ——OmniHuman 多模態(tài)框架,其優(yōu)勢在于其強(qiáng)大的視頻生成能力。用戶只需提供張任意
    的頭像 發(fā)表于 02-07 17:50 ?789次閱讀

    字節(jié)跳動豆包大模型1.5 Pro發(fā)布

    近日,字節(jié)跳動旗下的豆包大模型迎來了全新的升級——豆包大模型1.5 Pro正式發(fā)布。這款全新模型在知識、代碼、推理、中文等多個(gè)測評基準(zhǔn)上表現(xiàn)
    的頭像 發(fā)表于 01-23 15:24 ?645次閱讀

    字節(jié)跳動發(fā)布豆包大模型1.5 Pro

    字節(jié)跳動正式發(fā)布了豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型綜合能力顯著增強(qiáng),在知識、代碼、推理、中文等多個(gè)測評基準(zhǔn)上,綜合得分優(yōu)于GPT - 4o、Cl
    的頭像 發(fā)表于 01-23 10:24 ?644次閱讀

    字節(jié)跳動推出海外AI中文開發(fā)環(huán)境IDE:Trae

    字節(jié)跳動近期正式發(fā)布了一款名為Trae(trae.ai)的全新AI Coding產(chǎn)品,旨在為海外專業(yè)開發(fā)者提供個(gè)高效、智能的編程環(huán)境。這款產(chǎn)品的問世,標(biāo)志著
    的頭像 發(fā)表于 01-21 10:33 ?1593次閱讀

    中科創(chuàng)達(dá)旗下MM Solutions推出突破視頻降噪算法

    在CES 2025上,中科創(chuàng)達(dá)旗下全球領(lǐng)先的移動和工業(yè)圖形圖像視覺技術(shù)公司MM Solutions重磅推出一款具有突破視頻降噪算法——MMS AI Video Denoiser。這
    的頭像 發(fā)表于 01-13 11:41 ?1044次閱讀

    字節(jié)跳動否認(rèn)與中興通訊合作傳聞

    模型已經(jīng)與多個(gè)手機(jī)品牌建立了合作關(guān)系,但并未涉及與中興通訊在智能手機(jī)領(lǐng)域的合作。同時(shí),字節(jié)跳動還強(qiáng)調(diào),目前并不存在與中興通訊關(guān)于芯片合作的具體計(jì)劃。這澄清使得市場上對于兩家企業(yè)可能
    的頭像 發(fā)表于 12-18 10:08 ?1092次閱讀

    字節(jié)跳動自研視頻生成模型Seaweed開放

    近日,字節(jié)跳動旗下的AI內(nèi)容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這舉措標(biāo)志著
    的頭像 發(fā)表于 11-11 14:31 ?690次閱讀

    字節(jié)跳動計(jì)劃在歐洲設(shè)立AI研發(fā)中心

    字節(jié)跳動正積極布局歐洲市場,計(jì)劃在該地區(qū)設(shè)立AI研發(fā)中心。據(jù)知情人士透露,字節(jié)跳動已開始在歐洲尋找LLM(Large Language Model,大語言
    的頭像 發(fā)表于 10-28 11:04 ?1019次閱讀

    字節(jié)跳動與清華AIR成立聯(lián)合研究中心

    近日,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)與字節(jié)跳動共同宣布成立“可擴(kuò)展大模型智能技術(shù)聯(lián)合研究中心”(SIA Lab),并在清華大學(xué)舉行了隆重的成立儀式。
    的頭像 發(fā)表于 10-12 15:24 ?800次閱讀

    今日看點(diǎn)丨Vishay裁員800人,關(guān)閉上海等三家工廠;字節(jié)跳動發(fā)布兩視頻生成大模型

    1. 字節(jié)跳動發(fā)布兩視頻生成大模型 面向企業(yè)市場開啟邀測 ? 9月24日,字節(jié)
    發(fā)表于 09-25 15:48 ?952次閱讀

    字節(jié)跳動豆包大模型已支持實(shí)時(shí)語音通話

    字節(jié)跳動火山引擎今日隆重推出創(chuàng)新對話式AI實(shí)時(shí)交互解決方案,該方案以火山方舟大模型服務(wù)平臺為核心,全面升級語音交互體驗(yàn)。該方案深度融合火山引擎RTC技術(shù),實(shí)現(xiàn)了語音數(shù)據(jù)的即時(shí)采集、高效
    的頭像 發(fā)表于 08-12 16:13 ?1195次閱讀

    華發(fā)數(shù)智攜手字節(jié)跳動共同發(fā)布AI數(shù)字人及大模型綜合解決方案

    近日,珠海華發(fā)數(shù)智技術(shù)有限公司(簡稱:華發(fā)數(shù)智)攜手字節(jié)跳動旗下領(lǐng)先的云服務(wù)平臺火山引擎,共同發(fā)布了AI數(shù)字人及大模型綜合解決方案,標(biāo)志著華發(fā)集團(tuán)在AI大模型技術(shù)探索與應(yīng)用上邁出了重要
    的頭像 發(fā)表于 08-07 16:53 ?1270次閱讀