隨著5G時代的到來,低延時、超高清視頻將成為未來幾年內視頻發展的主流趨勢之一,沉浸式視頻或將迎來其爆發期。金山云 CDN及視頻云產品中心高級技術總監 蔡媛在線上分享中詳細介紹了沉浸式視頻發展的技術壁壘、挑戰及具體應用場景實踐。
大家好,我是金山云CDN及視頻云產品中心的蔡媛,本次我將給大家分享的主題是沉浸式視頻傳輸。
1 全球視頻云流量市場預測
上圖是2019全球視頻云流量市場的預估數據。從2017年到2022年,整個視頻流量以及CDN市場增長非常樂觀。到2022年整個視頻CDN的流量可能已經達到252EB的數量級。在此之中視頻占比逐年上升到2021年預計整個視頻的占比超過80%。隨著5G的催生,超高清視頻、低延遲視頻的發展,沉浸式視頻業務將會迎來較大爆發期,成為視頻發展的主力軍。
2 疫情期間音視頻通話流量
通過疫情催生,可以看出在整個視頻流量上,音視頻通話的流量猛增200%以上。與此同時,移動視頻的流量增長超過60%。上圖是在今年疫情期間音視頻會議應用的下載,下載量暴增超過十幾倍以上。黃色部分是ZOOM下載的增長,可以看出它的增長超過了29倍左右。淺藍色部分是谷歌Hangouts Meet,超過了百分之二十幾的增長。由此看出,在疫情期間音視頻流量增長實際上遠遠超過預期。
3 移動通信下的視頻趨勢
在電子時代,當時網絡狀況只有100KB左右網絡帶寬。當時我們更多的是在電視上觀看視頻。到了互聯網1.0的時代,我們開始在PC上觀看視頻包括點播,當時比較流行的應用場景有優酷、土豆、酷6。在當時互聯網1.0時代就是3G時代的標志性視頻應用和網站。到了移動互聯網時代,在4G網絡的催生下爆發出一些類似于抖音快手的短視頻應用以及現在非常流行的直播包括泛娛樂的場景、秀場,其中具有代表性的APP如映客、花椒、陌陌、火山,除此以外包括視頻的通信如微信、ZOOM,音視頻的通信也爆發起來。另外我們在疫情期間在線教育蓬勃發展屬于在互聯網2.0時代催生產物。互聯網2.0時代的帶寬大概是在百兆的網絡狀況。預測在下一個階段產業互聯網的階段,隨著5G帶來的催生作用,5G帶寬有極大的增長,網絡從百兆提升到1GB。在此情況下,我們可以預估未來在醫療場景、監控、遠程教育、在線課堂以及VR、AR云游戲場景下,會有爆發性的增長。
4 場景形態
4.1 實景式在線教育
上圖是實時場景下的在線教育,可以看出增強現實可以讓學習更加具備真實感和代入感,上圖中恐龍的場景,對于學生來說,它的代入感非常強,體驗非常真實。而混合現實的操作可以讓技術工人的操作更加有真實感。
4.2 高互動在線娛樂
VR游戲互動性與代入感非常強,它的肢體識別、動作識別都可以使整個游戲的趣味性極大增加。我們可以通過VR直播、VR眼鏡去觀看一場NBA的球賽或世界杯的足球賽。這種虛擬現實使人具有身臨其境的感覺。
4.3 沉浸式在線辦公
虛擬沉浸式在線辦公中現如今比較普及的是ZOOM、騰訊會議、釘釘在線進一步優化沉浸式辦公應用。通過超高清、沉浸式、低延遲提高遠程辦公的協作效率。
根據IDC的市場評估,沉浸式視頻云市場發展的趨勢處于飛速發展的階段。從2019年到2023年五年期間,整個年復合增長率超過66%,由此看出這是個非常強勁的增長。到2023年,整個VR、AR設備的保有率將會超過6000萬以上,這就是未來VR、AR的設備將有爆炸式增長。在硬件加持的基礎上,開發者可以有更大的想象空間,未來VR、AR的應用和它創意性的應用會有很大增長。
5 沉浸式視頻面臨的挑戰
5.1 挑戰是什么?
人眼對沉浸式視頻的要求會更加的苛刻,人眼對視頻機制的追求需要達到50K、120fps、20bit的分辨率和碼率以及色域的要求,才能達到真正人眼沉浸式的需求。當前我們所看到的網上視頻遠遠達不到這樣的要求,更多的是720p、30fps、8bit。要達到人眼對沉浸式視頻的要求,對視頻的編解碼以及傳輸會有非常巨大的挑戰。
5.2 應對挑戰的方法
金山云的產品布局主要集中在三個方面:互動性,去提高視頻的互動能力;超高清;VR技術。這三塊技術構建在整個金山云的IaaS平臺的基礎上。IaaS擁有大規模的云計算平臺、CDN的流量分發,以及RTC加邊緣計算等底層IaaS技術。通過IaaS技術,構建對開發者提供完善的PaaS的平臺,包括邊緣計算平臺,以及邊緣計算加RTC音視頻傳輸的能力,這是我們在互動低延遲上能力輸出。第二部分是超高清,超高效除了開放編解碼技術、8K、10bit編碼能力,還提供了包括畫質評測以及魔鏡平臺,這些專門針對超高清的產品去提供給開發者和客戶去使用,在VR上我們會專注于低延遲的VR編解碼、VR傳輸、在AI加持下的手勢肢體識別去提供整個VR的解決方案。以上是金山云在產品上的布局。
6 金山云視頻云關注技術點
金山云視頻云關注技術點主要集中在上圖三個大方向。第一部分是低延遲,通過RTC和邊緣計算的軟件加平臺的支持,可以保證編解碼在傳輸過程中的延遲在毫秒級以內。第二部分是編解碼技術,是我們的核心,在編解碼的加持下,會提供一個超高清的能力專注于8K、10bit,盡可能多去給客戶帶來碼率節省。第三部分是沉浸式技術,通過AR、VR的技術以及AI技術的加持下,去整合視頻的能力、超低延遲的編碼、傳輸方案以及相應的AI技術能力。所有的金山云的核心技術能力將會通過PaaS平臺去對外提供產品。三大塊的技術點將會通過金山云沉浸式的平臺、通過PaaS的方式提供給客戶,去支持創新性的開發與應用底層能力的支撐。
6.1 RTC+邊緣計算技術帶來低延遲
如何通過RTC+邊緣計算技術帶來低延遲的音視頻傳輸的能力。金山云的邊緣計算在全球超過1000個點的數據中心的規模,所以可以提供低于15毫秒的低延遲接入、良好的跨網絡的路由調度能力以及高效的音視頻傳輸的數據流。金山云的邊緣計算有非常強大的算力支持和布點的分布。通過RTC軟件的能力,金山云還提供了百人同時在線的音視頻通話的能力、豐富SDK終端支持。通過強大的音視頻處理和FEC弱網技術的支撐,可以提供豐富音視頻場景的能力支撐。目前金山云更多集中在泛娛樂的場景,比如說泛娛樂的連麥,以及在線音視頻的教育,未來RTC和邊緣計算能力的結合,可以很好地應用在我們的沉浸式的低延遲的場景上。
6.2 智能超高清編碼方案
第一部分金山云在編解碼技術上超過了5年的技術的積累,編解碼技術可以為客戶節省帶寬超過60%甚至80 %以上的壓縮率。這個壓縮率數據在行業中處于非常領先的能力水平。第二部分是通過我們的算法包括圖像算法、編碼算法,將畫面進行分層的處理、重點去進行畫質的增強。第三部分是AI技術,通過場景預測分析,畫質的分析,我們可以為視頻客戶相應不同場景的視頻,提供編碼的最優解,達到場景化最優編碼方案提供給使用者。
6.3 金山云深耕編碼技術
在編碼標準上,金山云同時支持了264編碼、265編碼、國產的AVS2的編碼以及最新的第四代編碼標準AV1,都在平臺上實現了商業化。同時我們也是AOM開放編碼組織的核心成員之一。
編碼都擁有獨立的知識產權。在2019年金山云提供專利超過50篇以上。
在性能上壓縮率大大高于開源編碼壓縮率,達到行業非常領先的位置。編碼優化的效率在性價比上在云廠商處于非常靠前的位置。
我們還支持全鏈路。全鏈路是指同時支持云上的云轉碼,同時也支持移動端的編解碼、web端的編解碼解碼的能力。所以金山云在云上、移動端上、PC端上、web端上支持整個全鏈路的播放、端的云上編碼能力。
6.4 AV1編解碼進展
當前AV1編碼已經支持了4K、8K超高清編碼以及100fps10bit編碼,10bit在iPhone12和小米10上已經支持10bit的視頻拍攝與應用。在這些APP中會有更多的應用。金山云在AV1上提前布局,已經支持了10bit的編解碼云上支持。
上圖是AV1編解碼的視頻展示,原片是6.37M,在265編碼下可以壓縮到1.59M,節省碼率帶寬大概是75%。在AV1下可以進一步壓縮到800多kb,碼率節省達到85%,視頻的傳輸上有非常大的支持,可以將碼率降低到80%以上,她的傳輸質量還有她的傳輸延遲,都會有很好的體驗上升。
6.5 超清畫質解決方案
上圖是在AI能力的加持下,AI加超高清編解碼的解決方案。通過AI我們可以實現以上四個大的提升。第一個是場景識別,可以對視頻場景進行識別,對體育、秀場、游戲等不同的場景進行匹配,對不同的場景運用不同的編碼模板達到最優的編碼應用。第二個是內容分割,通過ROI的分割,利用AI技術可以識別視頻中的人眼關注的區域如嘴唇,更多會對這些重點區域進行視頻增強,使主觀的效果更加優秀,讓主體更加突出,讓背景看起來更純凈。第三個是質量分析,通過神經學習,金山云支持多重的評價質量類型包括KPA(圖像視頻感知評價體系)的質量分析和VMAF分析,這些分析可以對不同的視頻進行質量的判定,比如對于高清的視頻可以應用更激進的編碼參數,對于低清的視頻,可能會進行一個更好的修復,讓整體效果更加優秀,視頻質量進一步提升。第四個是感知編碼,我們可以檢測出人眼最關注的區域比如人眼對邊緣的區域非常關注,會在邊緣地方分配更多的碼率進行編碼。這四大塊是通過AI加編解碼的能力達到融合,使編碼更加高效,分配碼率更加合理,提高整個畫質,降低傳輸碼率。
6.6VR分塊編碼
這一部分主要分享的是在VR上做的一些核心技術投入。首先是264編碼和265編碼和AV1編碼的差別。264編碼只支持Slice的切分,也就是橫向的切分。對于AV1和265編碼而言,它支持Tile的劃分,也就是它支持橫向和縱向的劃分,就是天然可以支持進行分塊的編碼,這在VR中非常重要。通過我們的分塊,可以將VR進行切分,通過切分后分塊進行渲染,如果沒有分塊的渲染,只是整個視頻在VR硬件上進行渲染對計算能力要求非常高,有可能設備解碼的溫度可能達到60攝氏度,戴在頭上是沒辦法接受的,只能在電視上進行觀看。但是有了Tile編碼之后,只需要去解碼視場角范圍內的視頻塊,會大大減輕頭顯對于解碼的計算能力的要求,使高清成為可能。Tile的話另外一個優勢是,它的體積會更加小,碼率節省可以超過75%,大大減少整個傳輸的成本。Tile方案同時也帶來了挑戰,首先是轉頭延遲,因為通過Tile的編碼,它只傳輸一部分的視頻,在轉頭的時候,要求延遲需要控制在人眼可以接受的范圍,對邊緣計算的要求,對處理的要求以及網絡傳輸的要求都會有一個更苛刻的訴求。其次是對AI和圖像處理而言也會帶來更大挑戰,傳統圖像處理是針對整個畫面去做處理的,經過Tile的傳輸和分塊之后,它進行了切割和切分的處理,通過分塊編碼以及分塊編碼后的視頻處理的能力加上邊緣計算的能力,金山云能夠比較好地處理Tile編碼帶來的挑戰。通過“云、邊、端”鏈條可以將轉頭延時降低到人眼可接受范圍,同時在Tile編碼上對圖像處理很好進行圖像增強。
6.7沉浸式FOV視場角
Tile編碼是為了更好的實現FOV視場角的訴求。FOV視場角是在人眼上看到有一個范圍,大概人眼能夠觀測的范圍是90度的范圍。沉浸式視頻是360度的視角,但人眼最關注的區域在90度到120度之間。在人眼FOV視場角范圍內,我們可以傳輸和展現高清的視頻,當我們轉頭時,我們會把視場角由低分辨率切換到高分辨率,而視場角范圍外就會從高分辨率切換到低分辨率,這個切換實際上是要求在視頻的切換上需要保持在30毫秒到60毫秒以內。要達到這個,一方面需要Tile編碼的支持,另一方面也需要邊緣計算、網絡傳輸、編碼上的支持,讓視頻傳輸碼率更小,它的傳輸延遲就會極大降低,才能夠控制在60毫秒以內。除了傳輸之外還需要在頭顯上集成和適配。所以全鏈路需要“云、邊、端”三端進行融合,才能實現低延遲的轉頭延遲。金山云在FOV上有一定的時間沉淀,在這方面會通過平臺的方式以及解決方案的方式提供給客戶、開放給開發者去進一步使用。以上就是關于技術上的一些分享。
7 愿景
金山云是在上圖三個大的方向上進行投入。第一方面是互動互聯,通過我們的互動視頻,可以使金山云更加智能、提供更低的延遲、更高清的語音和視頻的效果。第二方面是超高清能力,提供更高的畫質體驗、更大的壓縮率和更好的編碼效率、提供更好的性價比編碼服務和視頻媒體處理服務。第三方面試沉浸式技術,通過分塊編碼、低延遲視角、FOV的低延遲的能力以及通過AI去加持交互識別可以提供整個沉浸式技術給到開放平臺上進行開放,我們愿景是通過整個沉浸式視頻的平臺助推5G時代高清應用的發展。
責任編輯:lq
-
互聯網
+關注
關注
54文章
11229瀏覽量
105579 -
移動通信
+關注
關注
10文章
2668瀏覽量
70760 -
視頻技術
+關注
關注
1文章
109瀏覽量
23080
原文標題:沉浸式視頻技術應用與挑戰
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
商湯科技日日新大模型SenseNova上線聲網云市場
2024~2030年:工業樹莓派市場預測!

邊緣計算和云計算在預測性維護中的作用
2025年可穿戴設備市場預測樂觀
全球半導體市場規模預測
Forrester公有云評估:阿里云全球排名第二
未來網絡的高速引擎:800G光模塊市場預測與應用前景
2024年全球芯片市場將增長18.8%
2024年全球半導體預測超6100億美元!中國半導體半年成績單出爐,深圳設計業亮眼

如何理解云計算?
InConnect維護設備的流量是多少
如影數字人生成平臺SenseAvatar上線微軟全球云市場
最新研究成果揭示,未來十年全球物聯網市場將經歷哪些變化?

評論