深度剖析Sora技術(shù)的核心原理與應(yīng)用

?文生視頻大模型Sora橫空出世，能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。其中，視頻生成包含精細復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動，同時也接受現(xiàn)有視頻擴展或填補缺失的幀。

總體而言，不管是在視頻的保真度、長度、穩(wěn)定性、一致性、分辨率、文字理解等方面，Sora都做到了業(yè)內(nèi)領(lǐng)先水平，引領(lǐng)多模態(tài)產(chǎn)業(yè)革命。此外，當Sora訓(xùn)練的數(shù)據(jù)量足夠大時，它也展現(xiàn)出了一種類似于涌現(xiàn)的能力，從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。 Sora借鑒LLM中將文本信息轉(zhuǎn)化為token的思路，針對視頻訓(xùn)練視覺patch,實現(xiàn)視覺數(shù)據(jù)模型的統(tǒng)一表達，實現(xiàn)對多樣化視頻和圖像內(nèi)容的有效處理和生成，之后通過視頻壓縮網(wǎng)絡(luò)分解為時空patches,允許模型在時間和空間范圍內(nèi)進行信息交換和操作。

從Sora技術(shù)報告來看，時空patches或借鑒谷歌ViViT操作。ViViT借鑒ViT在圖片分割上的思路，把輸入的視頻劃分成若干個tuplet,每個tuplet會變成一個token，經(jīng)過spatial temperal attention進行空間和時間建模獲得有效的視頻表征token。傳統(tǒng)方法可能將視頻簡單分解為一系列連續(xù)的幀，因而忽略了視頻中的空間信息，也就是在每一幀中物體的位置和運動。我們認為，由于連續(xù)幀存在時空連續(xù)性，Sora的時空patches可同時考慮視頻中時間和空間關(guān)系，能夠更加精準生成視頻，捕捉到視頻中細微的動作和變化，在保證視頻內(nèi)容連貫性和長度的同時，創(chuàng)造出豐富多樣的視覺效果，靈活滿足用戶的各種需求。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

LLM

LLM

+關(guān)注

關(guān)注
1

文章
319

瀏覽量
678
Sora

Sora

+關(guān)注

關(guān)注
0

文章
83

瀏覽量
424

原文標題：分享：Sora技術(shù)深度解析

文章出處：【微信號：架構(gòu)師技術(shù)聯(lián)盟，微信公眾號：架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

架構(gòu)師技術(shù)聯(lián)盟
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 桌面版顯卡/GPU天梯圖（2023版）
Hot ARM處理器架構(gòu)和天梯圖解析

New 國產(chǎn)大模型發(fā)展的經(jīng)驗與教訓(xùn)
New GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計

精選推薦
更多

文章

資料

帖子

要真牛不要吹牛！汽車智能化創(chuàng)新，華為余承東最新講話三大重點

章鷹觀察
5小時前

414 閱讀

探索無刷小風(fēng)扇驅(qū)動方案續(xù)航優(yōu)化的 “密碼”--【其利天下】

其利天下技術(shù)
3天前

888 閱讀

SiC MOSFET模塊并聯(lián)應(yīng)用中的動態(tài)均流問題

三菱電機半導(dǎo)體
3天前

575 閱讀

ADI創(chuàng)新電源管理器件介紹

貿(mào)澤電子
3天前

574 閱讀

是德科技解讀IEEE P802.3dj最新以太網(wǎng)標準

是德科技快訊
3天前

539 閱讀

emqx-operator管理EMQ X的應(yīng)用控制器

陳偉
0.71 MB

2積分

2下載

pyscmpd Raspberry Pi上的音樂播放器

康輔佑
0.26 MB

免費

0下載

HAXM硬件輔助虛擬化引擎

哼小曲
0.49 MB

免費

0下載

車規(guī)級數(shù)字功放一體成型電感VSAD1010-150M中文資料

CODACA科達嘉電感
1.21 MB

免費

1下載

帶負載檢測功能的 USB 充電端口控制器和 3A 電源開關(guān)TPS2547數(shù)據(jù)表

其實znvm
2.56MB

免費

0下載

【高云GW5AT-LV60 開發(fā)套件試用體驗】代碼解讀-LVDS屏幕驅(qū)動

jf_75840292
3天前

667 閱讀

【米爾-RK3562開發(fā)板試用評測】rtc測評

lustao
3天前

1010 閱讀

基于米爾安路飛龍派FPGA FPSoC+開發(fā)環(huán)境搭建以及鏡像燒錄

EPTmachine
4天前

1012 閱讀

如何使用Banana Pi BPI-M7 瑞芯微RK3588開發(fā)板的CAN功能

sinovoip
4天前

1274 閱讀

創(chuàng)龍TL3562-MiniEVM開發(fā)板試用體驗

ElecFans小喇叭
4天前

1612 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

深度剖析Sora技術(shù)的核心原理與應(yīng)用

評論