女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI視頻年大爆發!2023年AI視頻生成領域的現狀全盤點

OpenCV學堂 ? 來源:新智元 ? 2024-02-20 10:40 ? 次閱讀

2023年,也是AI視頻元年。過去一年究竟有哪些爆款應用誕生,未來視頻生成領域面臨的難題還有哪些?

過去一年,AI視頻領域我們見證了,Gen-2、Pika等爆款產品的誕生。

來自a16z的Justine Moore,詳細盤點了人工智能視頻生成領域的現狀、不同模型比較,以及還未解決的技術挑戰。

4889e5b4-cf38-11ee-a297-92fbcf53809c.png

接下來,一起看看這篇文章都講了什么?

4899c13c-cf38-11ee-a297-92fbcf53809c.png

AI視頻生成大爆發

2023年是AI視頻取得突破的一年。不過,今年過去了一個月,暫未有公開的文本到視頻的模型。

短短12個月,數十種視頻生成產品受到了全球數以萬計的用戶的青睞。

不過,這些AI視頻生成工具仍相對有限,多數只能生成3-4秒的視頻,同時質量往往參差不齊,角色一致性等問題尚未解決。

也就是說,我們還遠不能制作出一個只有文字提示,甚至多個提示的皮克斯級別的短片。

然而,我們在過去一年中在視頻生成方面取得的進步表明,世界正處于一場大規模變革的早期階段——與我們在圖像生成方面看到的情況類似。

我們看到,文本到視頻的模型在不斷改進,圖像到視頻,以及視頻到視頻等分支也在蓬勃發展。

為了幫助了解這一創新的爆炸式增長,a16z追蹤了到目前為止最需要關注的公司,以及該領域仍然存在的潛在問題。

wKgaomXUEVyANWD1AAMVy8_kLxk520.jpg

今天,你可以在哪里生成AI視頻?

21個視頻生成產品

今年到目前為止,a16z已經跟蹤了21種公開產品。

雖然你可能聽說過Runway、Pika、Genmo和Stable Video Diffusion,但還有許多其他的東西需要探索。

wKgZomXUEVyARFiOAARAYxTYoKQ858.jpg

這些產品大多來自初創公司,其中許多都是從Discord bots,有以下幾個優勢:

不需要構建自己面向消費者的界面,只需專注于模型質量

可以利用Discord每月1.5億活躍用戶的基礎進行分發

公共渠道為新用戶提供了一種簡便的方式,讓他們獲得創作靈感(通過查看他人的創作)

然而,隨著技術成熟,我們開始看到越來越多的AI視頻產品建立自己的網站,甚至是App。

隨著Discord提供了一個很好的平臺,但在純生成之上添加的工作流而言,卻是有限的,并且團隊對消費者體驗的控制很少。

值得注意的是,還有很大一部分人不使用Discord,因其覺得界面混亂讓人困惑。

研究和技術

谷歌、Meta和其他公司在哪里?

在公開的產品列表中,他們顯然沒有出現--盡管你可能已經看到了他們發布的關于Emu Video、VideoPoet 和 Lumiere等模型的帖子。

到目前為止,大型科技公司基本上都不選擇公開自家的AI視頻產品。

取而代之的是,他們發表了各種相關的視頻生成的論文,而沒有選擇視頻演示。

比如,谷歌文本生成視頻的模型Lumiere

48c7ff52-cf38-11ee-a297-92fbcf53809c.png

這些公司有著巨大的分銷優勢,其產品擁有數十億用戶。

那么,他們為什么不放棄發布視頻模型,而在這一新興類別市場中奪取巨大份額。

最主要的原因還是,法律、安全和版權方面的擔憂,往往使這些大公司很難將研究轉化為產品,并推遲推出。如此一來,讓新來者有機會獲得先發優勢。

AI視頻的下一步是什么?

如果你曾使用過這些產品,便知道在AI視頻進入主流產品之前,仍然有很大的改進空間。

有時會發現,AI視頻工具可以將提示內容生成視頻的「神奇時刻」,但這種情況相對較少見。更常見的情況是,你需要點擊幾次重新生成,然后裁剪或編輯輸出,才能獲得專業級別的片段。

這一領域的大多數公司都專注于解決一些核心的問題:

控制性:你能否同時控制場景中發生的事情,(比如,提示「有人向前走」,動作是否如描述的那樣?)關于后一點,許多產品都增加了一些功能,允許你對鏡頭zoom或pan,甚至添加特效。

「動作是否如描述的那樣」一直較難解決:這涉及到底層模型的質量問題(模型是否理解提示的含義并能按要求生成),盡管一些公司正在努力在生成前提供更多的用戶控制。

比如,Runway的motion brush就是一個很好的例子,它允許用戶高粱圖像的特定區域并確定其運動方式。

時間一致性:如何讓角色、對象和背景在幀之間保持一致,而不會變形為其他東西或扭曲?

在所有公開提供的模型中,這是一個非常常見的問題。

如果你今天看到一段時間連貫的視頻,時長超過幾秒,很可能是視頻到視頻,通過拍攝一段視頻,然后用AnimateDiff prompt travel之類的工具來改變風格。

長度——制作長時間的短片與時間連貫性高度相關。

許多公司會限制生成視頻的長度,因為他們不能確保幾分鐘后依然視頻保持一致性。

如果當你看到一個超長的AI視頻,要知道它們是由一堆短片段組成的。

尚未解決的問題

視頻的ChatGPT時刻什么時候到來?

其實我們還有很長的路要走,需要回答以下幾個問題:

1 當前的擴散架構是否適用于視頻?

今天的視頻模型是基于擴散模型搭建的:它們基本原理是生成幀,并試圖在它們之間創建時間一致的動畫(有多種策略可以做到這一點)。

他們對3D空間和對象應該如何交互沒有內在的理解,這解釋了warping / morphing。

2 優質訓練數據從何而來?

與其他模態模型相比,訓練視頻模型更難,這主要是因為視頻模型沒有那么多高質量的訓練數據可供學習。語言模型通常在公共數據集(如Common Crawl)上進行訓練,而圖像模型則在LAION和ImageNet等標記數據集(文本-圖像對)上進行訓練。

視頻數據更難獲得。雖然在YouTube和TikTok等平臺上不乏公開可訪問的視頻,但這些視頻沒有標簽,也不夠多樣化。

3 這些用例將如何在平臺/模型之間進行細分?

我們在幾乎每一種內容模態中看到的是,一種模型并不是對所有用例都「取勝」的。例如,MidTrik、Idegraph和Dall-E都有不同的風格,并擅長生成不同類型的圖像。

如果你測試一下今天的文本到視頻和圖像到視頻模式,就會發現它們擅長不同的風格、運動類型和場景構成。

誰將主導視頻制作的工作流程?

而在許多產品之間,來回是沒有意義的。

除了純粹的視頻生成,制作好的剪輯或電影通常需要編輯,特別是在當前的范例中,許多創作者正在使用視頻模型來制作在另一個平臺上創建的照片的動畫。

從Midjourney的圖像開始,在Runway或Pika上制作動畫,然后在Topz上進行升級的視頻并不少見。

然后,創作者將視頻帶到CapCut或Kapwing等編輯平臺,并添加配樂和畫外音,通常是在Suno和ElevenLabs等其他產品上生成的。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48677

    瀏覽量

    246276
  • ChatGPT
    +關注

    關注

    29

    文章

    1586

    瀏覽量

    8784

原文標題:AI視頻年大爆發!Gen-2/Pika成時代爆款,2023年AI視頻生成領域的現狀全盤點

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    AI Agent 應用與項目實戰》----- 學習如何開發視頻應用

    開發一個視頻內容生成Agent。 訪問語聚AI平臺官網 ,進行注冊或登錄。 在平臺首頁,了解語聚AI的功能和應用場景,特別是其支持的視頻生成
    發表于 03-05 19:52

    阿里云通義萬相2.1視頻生成模型震撼發布

    近日,阿里云旗下的通義萬相迎來了重要升級,正式推出了全新的萬相2.1視頻生成模型。這一創新成果標志著阿里云在視頻生成技術領域的又一次重大突破。 據悉,萬相2.1視頻生成模型在多個方面實
    的頭像 發表于 01-13 10:00 ?731次閱讀

    Luma AI Ray 2視頻模型即將發布

    能夠在短短10秒內,根據用戶提供的文本和圖像提示,生成高質量的視頻內容。 Luma AI Ray 2視頻模型是Luma AI
    的頭像 發表于 12-20 11:37 ?635次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創新之作——AI視頻生成模型Sora。這一新品的發布,無疑為AI技術注入了新的活力。 據悉,Sora與OpenAI旗下的AI工具DALL-E有著
    的頭像 發表于 12-12 09:40 ?614次閱讀

    OpenAI開放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統Sora已正式向美國及其他市場的ChatGPT Plus訂閱用戶開放。自去年首次公開預覽以來,Sora歷經約10個月的精心研發與優化,現已全面
    的頭像 發表于 12-10 11:16 ?660次閱讀

    可靈AI全球首發視頻模型定制功能,助力AI視頻創作

    近日,快手旗下的可靈AI在全球范圍內率先推出了視頻模型定制功能,這一創新之舉成功解決了AI視頻生成過程中人物IP穩定性不足的難題。 據了解,用戶現在可以在可靈
    的頭像 發表于 11-26 14:02 ?1123次閱讀

    字節跳動自研視頻生成模型Seaweed開放

    近日,字節跳動旗下的AI內容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這一舉措標志著字節跳動在AI
    的頭像 發表于 11-11 14:31 ?563次閱讀

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這一舉措標志著火山引擎在視頻內容生成領域邁出了重要
    的頭像 發表于 09-25 14:11 ?538次閱讀

    阿里首推AI視頻生成利器Tora:指尖畫圈,自由操控物體運動軌跡

    近日,阿里巴巴團隊震撼發布了一項革命性的創新成果——Tora,一個前所未有的AI視頻生成框架。Tora深度融合了文本、視覺與軌跡條件,依托其獨創的軌跡導向擴散變換器(DiT)技術,徹底顛覆了視頻內容的創造與控制方式,為電影特效、
    的頭像 發表于 08-06 16:41 ?1216次閱讀

    MediaTek與快手攜手創新,端側視頻生成技術引領AI新紀元

    在科技日新月異的今天,MediaTek與快手再次攜手,于近日宣布了一項重大技術突破——高效端側視頻生成技術的誕生。這項技術不僅是對即將于2024世界移動通信大會(MWC 2024)上亮相的先進視頻生成技術的有力延續,更是雙方在
    的頭像 發表于 07-05 11:52 ?1598次閱讀

    MediaTek聯合快手推出高效端側視頻生成技術

    MediaTek 與快手共同宣布,推出高效端側視頻生成技術,共同探索并推進生成AI 技術的革新。作為對 2024 世界移動通信大會(MWC 2024)上亮相的視頻生成技術的延續,該
    的頭像 發表于 07-05 11:23 ?9032次閱讀

    商湯如影AI視頻生成平臺數字人AI亮相央視舞臺

    周五晚,《2024中國·AI盛典》在央視 CCTV-1 黃金檔隆重播出。 基于商湯如影AI視頻生成平臺打造的央視記者王冰冰的AI數字人,第一次亮相央視舞臺。 晚會中,王冰冰的數字分身—
    的頭像 發表于 06-30 17:29 ?2878次閱讀

    谷歌AI新突破:為無聲視頻智能配音

    近日,谷歌DeepMind團隊公布了一項革命性的技術——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術。這一技術的出現,不僅為視頻創作領域帶來了新的可能,也為觀眾
    的頭像 發表于 06-21 10:50 ?711次閱讀

    Google開發專為視頻生成配樂的人工智能技術

    近日,科技巨頭Google旗下的人工智能研究實驗室DeepMind宣布了一項引人注目的技術突破——V2A技術(Video to Audio),這是一項專為視頻生成配樂的人工智能技術。這項技術的誕生,標志著人工智能在媒體創作領域邁出了重要的一步,為解決現有
    的頭像 發表于 06-20 11:03 ?829次閱讀

    Runway發布Gen-3 Alpha視頻生成模型

    專為電影和圖像內容創作者提供生成AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經正式問世。這款模型在多方面均取得了顯著的進步,為創作者們帶來了前所未有的便利和可能性。
    的頭像 發表于 06-19 09:25 ?797次閱讀