女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI視覺泛化應用過程遇到的機遇和挑戰

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-12-07 13:53 ? 次閱讀

AI就像一個加速器,正在滲透在多媒體應用的方方面面,改進甚至顛覆傳統的圖像視頻處理方法。本文整理自騰訊云高級研發工程師劉兆瑞在LiveVideoStackCon 2020北京站上的演講,將從超低碼率壓縮場景下AI技術在前置處理中的優化、AI技術的畫質修復探索以及智能編輯場景的落地實踐三個方面展開。

大家好,首先非常榮幸有機會收到LiveVideoStack邀請來和大家分享騰訊視頻云在AI視覺上的落地實踐與應用,以及AI視覺泛化應用過程遇到的機遇和挑戰。

首先簡單做個自我介紹,加入騰訊以后,就一直在騰訊視頻云工作,早先負責PSTN云通信平臺,之后進行極速高清轉碼平臺的研發工作,與此同時也針對視頻的場景和特性進行編碼器的優化。現在主要負責騰訊明眸(畫質修復、畫質增強)的研發工作,該工作與騰訊多媒體實驗室聯合研發,已經在騰訊視頻云上得到比較好的落地與應用。 今天分享的內容更多以一個工程師的角度,和大家分享我們是如何把AI視覺真正的落地,應用在廣泛、海量的視頻處理過程中。所以在技術選型上,可能不會去選擇目前state of the art的技術,更多會考慮模型的穩定性、泛化能力以及資源的消耗、成本。接下來的分享是我們在實際落地過程中遇到的問題、踩過的坑,以及我們的一些trick。希望能為做類似業務落地的同學提供一定的參考。

上圖是騰訊視頻云在直播點播媒體處理、智能編輯等方面的產品矩陣,可以看到,無論是直播、點播中應用的視頻壓縮和畫質修復技術,還是智能編輯中應用的審核、識別、標簽等技術,都離不開AI的支持。 01極速高清,視頻壓縮的挑戰 近年來,視頻編碼領域也是在飛速發展,從H264編碼標準到現在的H265再到AV1。但是從實際用戶的使用情況觀察,目前H264標準依舊是主流,甚至90%以上的用戶還在使用H264。其實,H264已經是十幾年前的標準,有很多可以優化的痛點,我們希望可以結合AI技術,使H264在當前標準的基礎上,獲得新的編碼壓縮增益。 1.1 極速高清,單一視頻的極致壓縮

首先簡單對騰訊云極速高清產品做個定義,簡單而言它是一個結合了前置處理、編碼器優化的整體視頻壓縮解決方案。給客戶提供更低碼率的同時,保證主觀感受不變差,甚至更好的主觀感受。 提到壓縮肯定離不開編碼器,從編碼器角度來說,目前x264其實是非常成熟、優秀的編碼器,但它仍然存在一定優化空間,比如x264是通用的編碼器,不會針對一些垂直領域去做調優,但對于云服務的一些垂直場景,編碼器內部還有很多可以調試優化的地方。在不同垂直品類的視頻場景,我們在碼率控制、rdo分析、deblock濾波等等編碼器內部都做了新的編碼工具。同時視頻源的質量也是參差不齊的,所以針對不同質量的視頻源會進行銳化、去噪等輔助操作。極速高清方案整體壓縮下來,與普通轉碼相比會有額外20%-40%的碼率節省。 1.2 場景分類,海量視頻的分類壓縮 但是對于云上業務,每天轉碼海量的視頻,我們不可能針對每個視頻tune編碼特性和參數,而我們在編碼器上很多優化的編碼工具都是針對垂直場景,如果使用場景不匹配,會出現一定的反效果。所以針對不同場景、不同品類,和編碼團隊配合,更好的使用編碼工具是非常有意義的一件事。

上圖是一個簡單的直觀對比,左邊兩張圖像使用同樣的銳化強度處理,但游戲場景會有失真的情況。從編碼器的對比來看,如果你使用同樣crf35的編碼強度去壓縮,可以發現大逃殺類游戲已經產生了大量模糊,但秀場視頻還能夠保持不錯的質量感官。

前面提到視頻場景分類的必要性,我們在場景分類的模型選擇上是基于CNN的,主要是考慮CNN模型已經非常成熟、穩定,同時資源的消耗也比較低,速度能夠達到我們實時的需求。此外,CNN在推理過程中使用CPU就可以達到我們的要求,這也是一個非常誘人的優點,畢竟在很多情況下,GPU資源還是相對比較稀缺。 1.3 基于AI的輔助壓縮

我們通過場景分類來更好的利用編碼特性和工具,但我們也知道在編碼中沒有極限,尤其是To B服務要滿足客戶的各類需求。比如實際場景中的一個例子,源是非常復雜的高動態的MV類視頻,需要輸出720P@30fps,并且壓縮到500Kbps以下,同時因為播放端等因素限制,必須使用H264編碼。上圖是使用x264編碼器在slow復雜度下壓縮出來的效果,可以看到這個壓縮出來的結果還是比較差。

下面跟大家分享下,我們對于這個問題的嘗試和思考過程。我們知道碼率、質量和分辨率之間是有一個間隔交錯的區間,也就是說在碼率非常低的情況下,低分辨率的質量(視覺效果)可能會優于高分辨率。從原理上來看,低分辨率和高分辨率相比,細節信息是更少的。用低碼率來壓縮高分辨率視頻,會出現非常多的塊效應。而低分率視頻對人眼的感官來說只是模糊、不夠清晰。因此可以通過一些模糊、去噪的手段,主動減少一些視頻細節。這樣處理后,整個視頻的塊效應變少了,當然也會帶來額外的模糊效應。從客觀指標來看(PSNR、SSIM、VMAF),各個指標都有比較大的降低,雖然主觀有一定提升,但從客觀指標和整體方案來看,并不完美。

首先分析下模糊方案的缺點,模糊去噪的處理過程中,并不知道編碼器的傾向喜好,會按照去噪算法統一的磨平細節,而沒有考慮編碼過程。所以我們思考是否可以基于AI視覺的技術,做一個reduce artifact的filter。我們希望這個filter能夠主動磨掉一些細節,使視頻和編碼器有更好的親和性,也就是說這個視頻會更容易被編碼器壓縮,與此同時它不會把人眼關注的、明顯的邊緣磨掉,也就是在保證主體清晰度的前提下,編碼客觀指標也不會大幅下降。我們在模型訓練的過程中,引入了編碼過程,shuffle后還原的圖像不直接計算loss,而是進行一次視頻壓縮,用壓縮后的圖像來計算loss。低碼率壓縮時,先經過reduce artifact處理,再進行轉碼,畫面的人眼感官會有一個顯著的提升。 02騰訊明眸—永恒的追求,畫質提升 2.1 視頻超分辨率

提到畫質修復、畫質增強,肯定離不開超分辨率。目前超分辨技術已經取得一定的突破,可以大規模的落地使用。其中,基于ResNet的WDSR模型目前有比較好的超分效果和穩定性。基于WDSR的視頻超分有比較好的連貫性和穩定性,對每一個視頻幀獨立處理,連接成視頻后不會有頓挫、抖動現象。 實際場景挑戰 — 訓練數據

在實際落地的過程中,還有很多新的問題需要關注和解決。首先訓練數據非常重要,以上圖為例,左邊的視頻已經有非常多噪點和模糊的情況,如果像實驗環境下的視頻一樣使用無損的下采樣數據進行訓練,效果其實是微乎其微的。針對這樣的情況,我們會把圖像進行下采樣,然后用比較高的CRF值(比較差的編碼質量)對這個圖像進行編碼,這樣訓練數據中就有很多的噪點、偽影信息,訓練出來的模型也會有比較好的去偽影能力。 海量視頻的分類超分

對于云上業務來說,每天需要處理海量的視頻數據。如果對一個高清晰的視頻進行超分,同時超分的模型是由一個高CRF數據集訓練提供,會發現超分后視頻的很多細節被磨平損失,反之亦然。所以不同訓練數據構造的模型與視頻源之間要有一定的匹配關系。針對這種場景,我們通過CRF值來構造多種壓縮強度的數據源,進而用這些數據源訓練出不同強度的超分模型。當需要進行超分處理時,先使用基于CNN清晰度分類模型,對視頻源進行分類,判斷視頻源的清晰程度,然后使用跟清晰程度匹配的超分模型來進行處理。 Y or RGB?

接下來跟大家分享下落地過程中遇到的問題。團隊最開始基于Y通道進行超分,但經過一段時間的運營,發現視頻源是清晰的情況下,如果單獨把Y通道單獨提取出來會有很多奇怪的紋理和毛刺,超分后會放大這些異常。如果基于RGB超分則不會有這樣的問題。雖然Y通道有自身的缺點,但在實際的落地過程中,很多場景還是離不開基于Y通道的超分。比如直播中的 4K超分,為了保證實時性,會對一路直播流進行分布式的拆分,路由到多臺GPU節點進行處理,而在分布式超分的場景中,使用Y通道傳輸可以節省帶寬的消耗。 老片場景超分辨率:細節補足與幀間穩定性

對于一些老片的場景,基于ResNet和CNN的超分模型,雖然可以提升視頻質量,但是其對視頻細節的捕捉能力還不夠強,上述模型可以把一個非常差的視頻提升到還不錯的程度,但與目前所認可的高清還有一段差距。這種老片的視頻場景,可以通過GAN網絡來優化,GAN網絡具有比較強的細節補充能力,這種補齊比較符合人眼感官,帶來視覺效果的提升。當然,GAN網絡在實際落地的過程中,還有很多需要解決的問題,首要問題就是GAN的不穩定性和幀間一致性的優化。 2.2 快速、可控的色彩增強

在色彩增強方面,這里將MobileNet的特征與HSV色彩直方圖相結合,作為一個融合特征去分類訓練,通過這個模型來獲取調整對比度、亮度和色度的參數。這樣處理后的模型比較小,速度也非常快,有利于大規模落地使用;其次,它不是端到端的處理,所以整個過程是可控的,由于顏色的變換對于人眼來說是非常敏感的,因此在落地的過程中,我們也更傾向于使用中間過程可控的方式。

從上面三張圖片的對比來看,足球和暗場景都會使色彩變的更加鮮艷,同時對于游戲場景,也能比較好地保證原始視頻顏色的本真。 2.3 視頻流暢度提升,視頻插幀

最后再介紹下我們在視頻插幀所做的工作。相比于光流法,落地過程中更傾向于CAIN模型結構。CAIN網絡的特性在于下限很高,穩定性比較強,很少有大面積的模糊錯插。當然與光流法相比,CAIN插出來的清晰度較差。場景分割也是插幀中必不可少的一項操作,對于判斷出的場景分割點,可以跳過不進行插幀,避免變化太大的問題。場景分割的實現方案可以考慮移植編碼器的screencut算法,其在性能和穩定性上都經過了千錘百煉的優化,適用于大規模的落地使用。

上圖是我們使用插幀效果的對比,雖然手部有一定程度的模糊,但在視頻播放過程中,由于前后兩幀都是清晰的,考慮到視覺殘留效應,這種小的模糊是完全可以接受的。 03云端全鏈路視頻智能生產 最后再介紹下我們在視頻編輯部分所支持的一些能力。 3.1 制作云 — 從生產、編輯到消費的全鏈路

視頻制作云,其集成了新一代的云端遠程界面制作,通過超低延時協議把各地信號流傳到云端進行導播,支持了在線剪輯和AI識別等處理,同時我們也為企業也提供了從生產到編輯到消費的全鏈路,支持一鍵分發到各大消息平臺。

騰訊微剪,首發獨創的小程序視頻編輯工具,快速集成,支持音樂、濾鏡等特效 。支持智能模板,根據輸入素材自動視圖拼接生成視頻。

在直播制作方面,我們提供了云導播臺。云導播臺的優勢就在于操作簡單,功能上支持2s快速切換,直播內容無縫銜接。同時,云導播臺是基于互聯網的,所以非常容易支持一些互聯網活動,比如支持直播過程中的實時發放紅包和優惠券。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3776

    瀏覽量

    137203
  • 視頻
    +關注

    關注

    6

    文章

    1970

    瀏覽量

    73695
  • AI視覺
    +關注

    關注

    0

    文章

    83

    瀏覽量

    4710

原文標題:AI視覺,視頻云新挑戰的解決之道

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    直播預約 |數據智能系列講座第7期:面向高能力的視覺感知系統空間建模與微調學習

    建模與微調學習報告簡介構建高效、物理一致且具備良好能力的視覺感知系統,是視覺智能、邊緣計算與具身機器人中的關鍵挑戰。為提升系統的
    的頭像 發表于 05-29 10:04 ?129次閱讀
    直播預約 |數據智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力的<b class='flag-5'>視覺</b>感知系統空間建模與微調學習

    3D視覺機遇到臟污怎么預防?富唯智能以創新技術守護工業“慧眼”

    。如何破解這一行業痛點?3D視覺機遇到臟污怎么預防的答案,不僅在于日常維護,更需從技術底層革新與系統性防護入手。富唯智能憑借自主研發的“智能感知+主動防護”技術體系,為工業視覺系統打造全生命周期潔凈保障方案,重新定義行業標準。
    的頭像 發表于 04-30 15:46 ?182次閱讀
    3D<b class='flag-5'>視覺</b>相<b class='flag-5'>機遇到</b>臟污怎么預防?富唯智能以創新技術守護工業“慧眼”

    基于RK芯片的主板定制挑戰機遇與發展趨勢

    重要地位。因此,基于RK芯片的主板定制也成為了一個備受關注的領域,其中蘊含著巨大的機遇,同時也面臨著諸多挑戰。本文將深入探討基于RK芯片的主板定制的概念、優勢
    的頭像 發表于 03-27 14:50 ?420次閱讀
    基于RK芯片的主板定制<b class='flag-5'>化</b>:<b class='flag-5'>挑戰</b>、<b class='flag-5'>機遇</b>與發展趨勢

    行業首創:基于深度學習視覺平臺的AI驅動輪胎檢測自動

    全球領先的輪胎制造商 NEXEN TIRE 在其輪胎生產檢測過程中使用了基于友思特伙伴Neurocle開發的AI深度學習視覺平臺,實現缺陷檢測率高達99.96%,是該行業首個使用AI
    的頭像 發表于 03-19 16:51 ?360次閱讀
    行業首創:基于深度學習<b class='flag-5'>視覺</b>平臺的<b class='flag-5'>AI</b>驅動輪胎檢測自動<b class='flag-5'>化</b>

    量水堰計在使用過程中會遇到哪些常見的故障?

    量水堰計作為一種常用的水位測量儀器,在水文監測、水資源管理等領域發揮著重要作用。然而,在實際使用過程中,由于各種因素的影響,量水堰計可能會出現一些故障,影響其正常運行和測量精度。南京峟思將給大家介紹
    的頭像 發表于 02-20 14:20 ?327次閱讀
    量水堰計在使<b class='flag-5'>用過程</b>中會<b class='flag-5'>遇到</b>哪些常見的故障?

    AI醫療深度融合機遇挑戰并存

    2024年,醫療AI步入轉折期,挑戰與新生并存。
    的頭像 發表于 12-16 13:52 ?635次閱讀

    產業&quot;內卷&quot;下磁性元件面臨的機遇挑戰

    面對產業內卷的大環境,磁性元件行業究竟面臨著怎樣的機遇挑戰?企業又該如何在利潤空間不斷緊縮的夾縫中求生存、謀發展? 伴隨市場環境的日益復雜多變,以及消費者需求的多元與精細化,磁性元件產業逐漸步入
    的頭像 發表于 12-05 11:09 ?530次閱讀
    產業&quot;內卷<b class='flag-5'>化</b>&quot;下磁性元件面臨的<b class='flag-5'>機遇</b>與<b class='flag-5'>挑戰</b>

    光刻膠的使用過程與原理

    本文介紹了光刻膠的使用過程與原理。
    的頭像 發表于 10-31 15:59 ?1281次閱讀

    數字挑戰機遇分析

    了深刻的變革。然而,數字進程中也面臨著諸多挑戰,需要我們深入分析和應對。 一、數字帶來的機遇 經濟增長新動力 數字化為經濟增長提供了新的動力。通過數字
    的頭像 發表于 10-28 09:09 ?1339次閱讀

    AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    和國際合作等多個層面。這些內容讓我更加認識到,在推動人工智能與能源科學融合的過程中,需要不斷探索和創新,以應對各種挑戰機遇。 最后,通過閱讀這一章,我深刻感受到人工智能對于能源科學的重要性。人工智能
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    的深入發展。 3. 挑戰機遇并存 盡管AI在生命科學領域取得了顯著的成果,但也面臨著諸多挑戰。例如,數據隱私、算法偏見、倫理道德等問題都需要我們認真思考和解決。同時,如何更好地將
    發表于 10-14 09:21

    AFE031AIRGZT在使用過程遇到的疑問求解

    使用到貴司AFE031AIRGZT芯片,在使用過程遇到如下問題: 1.使用afe031.pdf 和sboa130a.pdf文檔中提到的電路連接,將芯片連接后,參考電壓REF1為2.7v左右,而
    發表于 09-24 07:19

    灌區信息面臨的挑戰分析

    灌區信息化作為現代農業發展的重要支撐,旨在通過信息技術的深度融合與應用,實現水資源的高效管理、精準灌溉以及灌區運行的智能。然而,在推進灌區信息過程中,一系列挑戰也隨之浮現,這些
    的頭像 發表于 09-12 17:45 ?646次閱讀
    灌區信息<b class='flag-5'>化</b>面臨的<b class='flag-5'>挑戰</b>分析

    數據中心的AI時代轉型:挑戰機遇

    隨著人工智能(AI)的迅速發展和廣泛應用,數據中心作為AI技術的基石,也面臨著前所未有的挑戰機遇。為了滿足AI的高性能和低延遲要求,數據中
    的頭像 發表于 07-24 08:28 ?772次閱讀
    數據中心的<b class='flag-5'>AI</b>時代轉型:<b class='flag-5'>挑戰</b>與<b class='flag-5'>機遇</b>

    探討數字背景下PMC的挑戰機遇

    在數字浪潮的席卷下,各行各業都面臨著前所未有的變革。對于負責產品物料控制(PMC)的企業來說,這一變革既是挑戰也是機遇。如何在數字背景下,抓住時代的脈搏,推動PMC管理的創新與升級
    的頭像 發表于 07-05 11:03 ?770次閱讀