?文生視頻大模型Sora橫空出世,能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。其中,視頻生成包含精細復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動,同時也接受現(xiàn)有視頻擴展或填補缺失的幀。
總體而言,不管是在視頻的保真度、長度、穩(wěn)定性、一致性、分辨率、文字理解等方面,Sora都做到了業(yè)內(nèi)領(lǐng)先水平,引領(lǐng)多模態(tài)產(chǎn)業(yè)革命。此外,當Sora訓(xùn)練的數(shù)據(jù)量足夠大時,它也展現(xiàn)出了一種類似于涌現(xiàn)的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。 Sora借鑒LLM中將文本信息轉(zhuǎn)化為token的思路,針對視頻訓(xùn)練視覺patch,實現(xiàn)視覺數(shù)據(jù)模型的統(tǒng)一表達,實現(xiàn)對多樣化視頻和圖像內(nèi)容的有效處理和生成,之后通過視頻壓縮網(wǎng)絡(luò)分解為時空patches,允許模型在時間和空間范圍內(nèi)進行信息交換和操作。
從Sora技術(shù)報告來看,時空patches或借鑒谷歌ViViT操作。ViViT借鑒ViT在圖片分割上的思路,把輸入的視頻劃分成若干個tuplet,每個tuplet會變成一個token,經(jīng)過spatial temperal attention進行空間和時間建模獲得有效的視頻表征token。 傳統(tǒng)方法可能將視頻簡單分解為一系列連續(xù)的幀,因而忽略了視頻中的空間信息,也就是在每一幀中物體的位置和運動。我們認為,由于連續(xù)幀存在時空連續(xù)性,Sora的時空patches可同時考慮視頻中時間和空間關(guān)系,能夠更加精準生成視頻,捕捉到視頻中細微的動作和變化,在保證視頻內(nèi)容連貫性和長度的同時,創(chuàng)造出豐富多樣的視覺效果,靈活滿足用戶的各種需求。
審核編輯:黃飛
-
LLM
+關(guān)注
關(guān)注
1文章
319瀏覽量
678 -
Sora
+關(guān)注
關(guān)注
0文章
83瀏覽量
424
原文標題:分享:Sora技術(shù)深度解析
文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論