隨著近年來(lái) AI 技術(shù)的興起,視頻監(jiān)控、汽車、智能家居、移動(dòng)設(shè)備及數(shù)據(jù)中心等對(duì)高清視頻處理有了越來(lái)越高的要求。安謀科技全新視頻處理器——“玲瓏”V6/V8,針對(duì)主流市場(chǎng)的視頻流媒體技術(shù)進(jìn)行了大量投入,通過一系列智能權(quán)衡實(shí)現(xiàn)了極大優(yōu)化,為所有合作伙伴提供靈活的組合和選擇。LiveVideoStackCon 2022北京站邀請(qǐng)到了安謀科技多媒體產(chǎn)品經(jīng)理董峰,為我們分享“玲瓏”編解碼融合架構(gòu)助力視頻多元化需求。
此次是安謀科技在LiveVideoStack大會(huì)的演講首秀。安謀科技是中國(guó)最大的芯片IP設(shè)計(jì)與服務(wù)供應(yīng)商,在立足全球生態(tài)、深耕本土創(chuàng)新的基礎(chǔ)上,堅(jiān)持以自研IP技術(shù)的創(chuàng)新發(fā)展與Arm IP相配合,為本土集成電路產(chǎn)業(yè)提供豐富的產(chǎn)品組合和解決方案。
自2018年獨(dú)立運(yùn)營(yíng)以來(lái),安謀科技堅(jiān)持開展自研IP和發(fā)展Arm IP業(yè)務(wù),一方面是結(jié)合中國(guó)市場(chǎng)需求積極布局自研業(yè)務(wù),堅(jiān)持“全球標(biāo)準(zhǔn),本土創(chuàng)新”,陸續(xù)推出“周易”NPU、“星辰”CPU、“山海”SPU以及“玲瓏”ISP&VPU等自研IP成果,并全部實(shí)現(xiàn)了客戶相關(guān)芯片產(chǎn)品的流片和量產(chǎn)。另一方面,安謀科技也致力于將Arm 先進(jìn)的架構(gòu)和技術(shù)引進(jìn)國(guó)內(nèi),滿足國(guó)內(nèi)公司開發(fā)具有全球競(jìng)爭(zhēng)力產(chǎn)品的需求。在兩大支柱業(yè)務(wù)的合力之下,目前安謀科技已打造一體化、完整的異構(gòu)計(jì)算IP核心矩陣,助力中國(guó)智能計(jì)算產(chǎn)業(yè)高速發(fā)展。
芯片IP廠商需要考慮多元化的需求,應(yīng)當(dāng)滿足不同場(chǎng)景下的不同訴求。對(duì)于視頻來(lái)說,無(wú)論是端、邊、云都有很大的視頻編解碼需求。端側(cè)手機(jī)、IPC、無(wú)人機(jī)等不同場(chǎng)景對(duì)視頻編解碼的需求存在較大差異。而云端和車載則是完全不同的方向。手機(jī)以及安防在編碼和解碼方面差異也較為明顯,手機(jī)客戶解碼需求更強(qiáng),但是旗艦機(jī)對(duì)于一些圖傳也存在不同需求。作為IP廠商如何面對(duì)復(fù)雜多變的市場(chǎng)需求是首當(dāng)其沖的問題。
安謀科技VPU團(tuán)隊(duì)在2019年底成立,從2020年初開始研發(fā)自研產(chǎn)品。我們團(tuán)隊(duì)從Arm Mali-V52的維護(hù)開始,逐漸完成兩代產(chǎn)品的研發(fā)。為了更好地滿足行業(yè)基本格式需求,我們新增了AVS2和AV1格式,“玲瓏”V5/V7花費(fèi)了近三個(gè)季度完成,“玲瓏”V6/V8則花費(fèi)了將近一年。除了增加格式之外,還增強(qiáng)了整體編碼能力。“玲瓏”V5/V7的HEVC編碼質(zhì)量與Arm Mali-V52/76相比提升了15%,“玲瓏”V6/V8的H.264編碼質(zhì)量也比“玲瓏”V5/V7提升了10%。面對(duì)多樣的產(chǎn)品需求,增加了復(fù)雜的前后處理,“玲瓏”V5/V7增加了Any ratio downscaling的后處理;“玲瓏”V6/V8增加了OSD的前處理,以及YUV到RGB的后處理。
“玲瓏”VPU支持全格式,整體面積較小。“玲瓏”V5全格式支持包括前后處理P&R之后是1.83。芯片IP行業(yè)一直在追求更高的性能、更小的功耗和更小的面積,產(chǎn)品在迭代過程中針對(duì)上述問題的改進(jìn)還是頗有成效。在整體架構(gòu)方面也有別于其它架構(gòu),“玲瓏”VPU以單核實(shí)現(xiàn)編解碼融合,既可以編碼也可以解碼,以適用于多樣場(chǎng)景的需求。不只是硬件格式的支持,還囊括了可編程的軟件部分,以滿足對(duì)多種場(chǎng)景變化的需求。
在硬件層面上,“玲瓏”VPU添加更多靈活可配的接口,其它能力通過軟件層面實(shí)現(xiàn)擴(kuò)展。該產(chǎn)品整體是5個(gè)MCU的結(jié)構(gòu),不同的MCU對(duì)應(yīng)控制不同的硬件加速器。在spec分析階段,需要考慮哪些可以固化、哪些可以通過靈活的軟件配置實(shí)現(xiàn),再將可固化的部分做成純硬件。
盡管端和云對(duì)處理器性能要求差異巨大,但是從芯片IP角度出發(fā),還是希望能用統(tǒng)一的方式來(lái)支撐不同場(chǎng)景的需求,基于多核的可拓展性對(duì)性能進(jìn)行擴(kuò)展,通過擴(kuò)展核數(shù)以支持不同場(chǎng)景需求。例如,端側(cè)客戶單核即可滿足需求,而邊緣側(cè)大致需要四核,那云端基本需要八核。在7nm制程前提下,八核基本可以實(shí)現(xiàn)8k@60fps編碼或8k@120fps解碼。
除了上述的多核可拓展性之外,“玲瓏”VPU對(duì)于MCU本身也會(huì)有所考量。不同于Arm Cortex A和Cortex M的核,其單獨(dú)為視頻場(chǎng)景進(jìn)行定制優(yōu)化,基本上仍然是5級(jí)的流水。而在頻率方面,和整個(gè)VPU同頻。16FF下至少可達(dá)到800MHz。由此可見,該核本身就可以保證其性能,在視頻場(chǎng)景下更側(cè)重于加速器的控制,所以不會(huì)讓其觸碰pixel內(nèi)容,在指令集方面也做了很多優(yōu)化。
除了6個(gè)加速器之外,“玲瓏”VPU還有兩個(gè)DMA相關(guān)的單元,一個(gè)是SDMA,另一個(gè)是VDMA。VDMA主要用于處理Frame級(jí)別的數(shù)據(jù),包括編碼的輸入數(shù)據(jù)和解碼的輸出數(shù)據(jù),前后處理也可以通過該單元靈活擴(kuò)展。這幾代產(chǎn)品的迭代都是把功能分散到不同的加速器以及top層上。應(yīng)對(duì)不同場(chǎng)景的需求,除了性能和基本功能之外,系統(tǒng)層面仍然有差異化的需求,多路的隔離、系統(tǒng)訪存延遲優(yōu)化、降帶寬、降延時(shí)等都屬于系統(tǒng)層面的優(yōu)化,也和Arm的生態(tài)保持一致。
在系統(tǒng)層面,通過降帶寬、降延時(shí)來(lái)應(yīng)對(duì)大帶寬系統(tǒng)的需求,基于AFBC,可與Arm GPU以及Display搭配進(jìn)行,內(nèi)部中間的參考幀使用AFBC壓縮,可讓帶寬在輸入和輸出都不壓縮的情況下降低35%。在GPU使用VPU解碼數(shù)據(jù)進(jìn)行紋理渲染時(shí),整體的帶寬可降低至原先的45%。在Display場(chǎng)景中,也可以達(dá)到類似的效果。除了整個(gè)數(shù)據(jù)流,中間的參考幀數(shù)據(jù)也可以單獨(dú)拿出來(lái)為后面的單元進(jìn)行相對(duì)地管理,也可以有效降低帶寬。“玲瓏”VPU圍繞各個(gè)層面進(jìn)行統(tǒng)一考量,以更好地降低帶寬需求。
VPU不僅需要在視頻場(chǎng)景中考量系統(tǒng)層面的優(yōu)化,也需要從系統(tǒng)層面進(jìn)行考量,內(nèi)部的并行也可以在top ram進(jìn)行優(yōu)化,以減少多核之間的內(nèi)存訪存。VPU與CPU處理器、視頻、顯示的聯(lián)合也可以做到類似的效果。
就AFBC本身而言,也分為不同的版本。AFBC是Arm Frame Buffer Compression的縮寫,簡(jiǎn)單理解就是Arm系統(tǒng)層面上的無(wú)損壓縮,主要目的是帶寬的優(yōu)化。AFBC的能力是基于Arm整個(gè)IP層面來(lái)實(shí)現(xiàn)的,是在系統(tǒng)層面的整體優(yōu)化。對(duì)于ISP而言,Arm也有專用的AFBC模塊用來(lái)連接ISP,端側(cè)場(chǎng)景也可以在視頻里直接輸入AFBC數(shù)據(jù)以減少帶寬。AFBC的好處很多,尤其是對(duì)rotation十分友好,系統(tǒng)層面通過AFBC就可以繞過rotation這種耗帶寬的處理,從原始數(shù)據(jù)進(jìn)行rotation的訪問,對(duì)于系統(tǒng)的總線來(lái)說存在不小的壓力。但通過AFBC的方式在內(nèi)部?jī)?yōu)化rotation,能夠支持連續(xù)的訪問,這種方式更簡(jiǎn)單高效。此外,AFBC的不同格式也對(duì)系統(tǒng)的隨機(jī)訪問有所支持。
“玲瓏”VPU原生就支持多路,端側(cè)場(chǎng)景也需要多路,對(duì)于云端場(chǎng)景來(lái)說多路更是剛需。應(yīng)對(duì)多路復(fù)雜多分辨率的場(chǎng)景,也是巨大的考驗(yàn)。“玲瓏”VPU通過核心調(diào)度器負(fù)責(zé)多核調(diào)度,多核并行按照條帶級(jí)別劃分任務(wù),任何核都可以通過核心調(diào)度器硬件直接調(diào)度。“玲瓏”VPU原生硬件可支持4個(gè)上下文,4路不同場(chǎng)景都可以通過核心調(diào)度器進(jìn)行切換。而總線仲裁器則負(fù)責(zé)系統(tǒng)層面的訪問,與核互聯(lián)以整體判決,從而優(yōu)化緩存,在輸出時(shí)可通過AXI進(jìn)行。三步結(jié)合,一起對(duì)訪存進(jìn)行優(yōu)化。
為應(yīng)對(duì)云端和邊緣場(chǎng)景,除了對(duì)核進(jìn)行優(yōu)化之外,硬件也要進(jìn)行優(yōu)化。低功率可以通過LPI接口得以實(shí)現(xiàn)。整體來(lái)看,多核、異步處理是優(yōu)化過程中的核心部分。不同的要求可以使用不同的管理策略,靈活配置能夠更好地服務(wù)客戶。
REF主要用于處理參考幀的訪問,可通過隨機(jī)訪問以達(dá)到性能的優(yōu)化。
“玲瓏”VPU內(nèi)部的算法十分靈活,ME的目標(biāo)也很靈活。產(chǎn)品編碼的迭代更多是在ME層面上實(shí)現(xiàn)。
“玲瓏”VPU架構(gòu)里的軟件控制同樣靈活,面對(duì)相應(yīng)的需求可及時(shí)調(diào)整。實(shí)力強(qiáng)勁的廠商也可以使用自己的ME。對(duì)于ME的接口開放也是非常靈活的。
盡管MC較為標(biāo)準(zhǔn),但對(duì)于硬件的實(shí)現(xiàn)也較為靈活。
Transform在這里主要負(fù)責(zé)所有的變換,融合了不同的格式,也可以通過參數(shù)控制。
RASC主要負(fù)責(zé)整體的管理,數(shù)據(jù)流也是核間的IPC所控制管理的,具有較高的靈活調(diào)度性,可避免硬件本身的風(fēng)險(xiǎn)。RASC的設(shè)計(jì)比較考驗(yàn)整體的設(shè)計(jì)能力,“玲瓏”VPU采用了一個(gè)小的MCU,基本上所有的代碼和數(shù)據(jù)都在ram里,緩存也與其它同類產(chǎn)品有所區(qū)別,我們擁有外部模塊的快速訪問接口。
MMU整體考量方向包括多路和安全,多路本身就需要完整的內(nèi)存層面的隔離,MMU VA32bit和PA40bit,基本上可以滿足所有場(chǎng)景的需求。
在屬性管理方面, protect、可執(zhí)行等方面屬性與SMMU類似,但與Arm SMMU整體架構(gòu)不同,此處MMU更像是GPU內(nèi)的MMU,想要應(yīng)對(duì)每個(gè)處理單元的訪問,每個(gè)uTLB都應(yīng)該有所配置,Micro uTLB和PTW也都有相應(yīng)的優(yōu)化。
SDMA是一個(gè)更為標(biāo)準(zhǔn)化的DMA。除了bitstream之外,還要應(yīng)對(duì)多個(gè)硬件加速單元控制結(jié)構(gòu)之間的傳輸。所以“玲瓏”VPU在硬件加速層面有很多細(xì)節(jié)處理,用以滿足整體系統(tǒng)層面的優(yōu)化。
Frame級(jí)別的控制管理都是由VDMA進(jìn)行的。可以看到與FORMATTER相關(guān)的前處理都在FORMATTER里進(jìn)行,前后處理也有各自的數(shù)據(jù)通路。最新一代的“玲瓏”VPU要比圖中所示增加了更多新的功能,前后處理層面也有更多的擴(kuò)展。
Deblock是濾波的模塊,用以應(yīng)對(duì)不同格式filter的需求。
Bitstream是編碼解碼碼流處理模塊,也是用于應(yīng)對(duì)不同格式。在系統(tǒng)層面的 Bitstream會(huì)相對(duì)獨(dú)立,在系統(tǒng)層面劃分為“和流相關(guān)”或“和frame相關(guān)”,硬件控制會(huì)在系統(tǒng)層面進(jìn)行兩步劃分,無(wú)論是編碼還是解碼,都要先MB在級(jí)別的劃分。
這張圖是解碼的基本程序,碼流、MB、MV等信息都會(huì)進(jìn)行保存。
編碼過程也與解碼過程類似。
審核編輯:劉清
-
RGB
+關(guān)注
關(guān)注
4文章
803瀏覽量
59557 -
ARM處理器
+關(guān)注
關(guān)注
6文章
361瀏覽量
42410 -
視頻編解碼
+關(guān)注
關(guān)注
2文章
54瀏覽量
11920 -
HEVC
+關(guān)注
關(guān)注
1文章
37瀏覽量
24156 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1307瀏覽量
24991
原文標(biāo)題:“玲瓏”編解碼融合架構(gòu)助力視頻多元化需求
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
新一代視頻編解碼標(biāo)準(zhǔn)H.266走向主流 頭部視頻平臺(tái)滲透率超70%

啟明智顯定制化HMI方案,滿足多元化客戶需求

iTOP-3588開發(fā)板采用瑞芯微RK3588處理器四核心架構(gòu)GPU內(nèi)置獨(dú)立NPU強(qiáng)大的視頻編解碼
迅為iTOP-RK3588S開發(fā)板/核心板6TOPS的NPU算力視頻編解碼8K編碼+8K解碼
技術(shù)洞見丨視耀S1直播機(jī)的頂尖性能與多元化功能
美企紛紛調(diào)整多元化項(xiàng)目,順應(yīng)政策轉(zhuǎn)向
SAE 2024汽車動(dòng)力總成多元化技術(shù)論壇成功舉行
視頻編解碼標(biāo)準(zhǔn)課件
盛顯科技RK3588核心板:以12屏聯(lián)屏拼接,開啟多元化展播新紀(jì)元
基于Arm架構(gòu)的珠峰芯片加速極致視頻體驗(yàn)

立訊精密獲評(píng)2024年度多元化供應(yīng)商獎(jiǎng)
安謀科技自研“玲瓏”多媒體家族再添新軍,加速超高清顯示和端邊云視頻應(yīng)用落地

評(píng)論