黄色网站1级电影,在线观看国产一区二区三区,第九色区av天堂

歸根結底，每一種視頻壓縮方法都要權衡利弊（trade-off）：如果允許更大的文件大小，就可以擁有更好的圖像質量；但如果想讓文件非常小，那就必須要容忍錯誤出現的概率。但現在（以及不久的將來），人們希望基于神經網絡的方法能夠在視頻文件大小和質量之間做出更好的權衡與交換（a better trade-off)。

凡是有AI加持的技術都被看作明日曙光，帶著神秘的未來感，讓人忍不住要靠近。所幸有南大馬展教授牽線搭橋，我們才得以采訪到南大在讀博士劉浩杰，后者參與發表的“端到端的神經視頻編碼（Neural Video Coding using Multiscale Motion Compensation and Spatiotemporal Context Model）”在人工智能頂會AAAI 2020并被選為Poster Spotlight，改進之后的版本已上線GitHub，成為開源項目（鏈接：https://njuvision.github.io/Neural-Video-Coding/）。

劉浩杰目前在紐約大學坦頓工程學院交換，巧也不巧，他恰是在疫情初期、美國對國內封關的前一天抵達的紐約。以下內容由LiveVideoStack與劉浩杰的采訪整理而成。

for Haojie Liu

LiveVideoStack：為什么選擇機器學習、神經編碼作為研究方向？劉浩杰：首先我的導師多年從事傳統視頻編碼的研究，在視頻編碼這個領域有著豐富的經驗和技術積累，2016年碩士入學期間，正好也是神經網絡、深度學習逐漸火熱起來的階段，當時基于深度學習的編碼才剛開始起步。在這樣一個雙重契機下，我開始嘗試將兩者結合，主要研究基于深度學習的圖像視頻編碼，我研究的主要方向及課題至今也都據此展開。 LiveVideoStack：目前在紐約大學的研究方向？劉浩杰：目前在紐約大學坦頓工程學院王瑤教授的視頻實驗室（Video Lab）進行訪問，主要是進一步深化端到端圖像視頻編碼算法，細化整個端到端視頻編碼框架中每一個模塊，同時更好地將神經編碼和視覺任務相結合，能做出更加面向實際應用以及真實場景的研究成果。當然，設計一些有趣的不同于傳統框架的神經視頻編碼框架也是我一直在探索的課題。

For Neural-Video-Coding

LiveVideoStack：能具體聊一聊神經編碼端到端的解決方案嗎？劉浩杰：1）從圖像編碼的角度，我們的方法引入了非局部模塊和自注意力機制，能更好地提取局部和非局部信息，同時隱式的自注意力機制能自適應地分配碼率。2）圖像編碼進一步地由實驗室的其余同學完成了網絡定點化、單模型多碼率點覆蓋等工作，這些更面向實際應用和落地。3）結合圖像分割我們也在我們自身的系統中融入了基于目標的圖像編碼以及分析，在極低碼率下我們的算法能得到極高的主觀視覺質量。3）在端到端視頻編碼系統中，我們結合自身開發的非局部自注意力圖像編碼算法NLAIC，采用時域預測模型ConvLSTM來提取并聚合時域的先驗，并與空間先驗融合從而提供了一個更好的概率模型能顯著減少碼率。4）在幀間預測過程中，我們結合了多尺度的運動估計生成多尺度的運動場，同時對視頻特征域進行多尺度的運動補償，逐級優化預測性能，這樣的方法能更好地解決視頻遮擋等較難預測的問題，得到更好的視頻預測性能。 LiveVideoStack：研究過程中印象最深的難點？劉浩杰：相比于一些純粹的圖像增強算法，視頻編碼涉及到的最重要的是對所編碼特征進行碼率估計并聯合視頻重建損失進行率失真優化。傳統視頻編碼中模式選擇如何很好地應用在端到端系統中進行多幀優化的過程中，解決在訓練過程中多幀率失真優化是一個比較困難的點。 LiveVideoStack：就目前研究而言，仍有哪些待解決的具體問題？劉浩杰：1）幀間編碼是視頻編碼的一個很重要組成部分，在有限的碼率約束下，基于已編碼的視頻幀得到更好的預測幀是一個很關鍵的問題。2）基于時空信息更好地設計概率預測模型。3）更好地設計多幀率失真優化，多幀的率失真優化問題能有效地解決實際編碼過程中的誤差累積和傳播的問題，對于最終的編碼性能有很大的影響。 LiveVideoStack：如何看待“神經編碼有著better trade-off”的說法？劉浩杰：我認為這個是兩面性的。對于圖像編碼來說，端到端的圖像編碼技術日趨成熟，由于基于學習的算法能同時優化編碼器和解碼器，并且在特征變換、概率估計、量化等方法的不斷優化的情況下，使得整個端到端框架能很好地進行率失真優化。而對于視頻編碼來說，傳統視頻編碼中有著復雜的塊劃分以及模式選擇等來優化整個編解碼系統，而目前端到端的視頻編碼系統很難用一個模型來完美地去解決所有的問題。如何在訓練中對多幀的視頻編碼器進行優化，以及是否采用多模型，幀內幀間的RD選擇等很多問題都需要在這樣的系統中解決。因此，如何在端到端視頻編碼中設計一個比較好的率失真優化策略能帶來很大的性能增益。 LiveVideoStack：對國內做相關研究的機構、平臺有哪些了解？劉浩杰：國內例如上海交通大學、中科大、北京大學、騰訊、阿里巴巴都在這個領域有著很多優秀的研究成果。上海交大提出了最早的端到端的視頻編碼框架DVC，并在此基礎上有提出了DVC_pro,進一步地提升了編碼的性能；中科大劉東老師團隊在傳統視頻編碼框架上引入了很多深度學習算法來提升對應的模塊極大地提高了傳統編碼框架的性能，同時他們提出的基于神經網絡小波變換的端到端圖像壓縮算法，利用集成學習的方法針對特定圖像紋理優化特定壓縮模型，在端到端視頻編碼框架中利用多參考幀的MLVC有著很高的壓縮性能；北京大學團隊提出了層級的概率先驗表達，進一步優化了端到端系統中的概率模型，在更高效編碼圖像的同時也有著更低的編解碼復雜度。工業界騰訊所提出的Multi-frequency的特征變換方法，在圖像編碼中有著比VVC更好的性能。 LiveVideoStack：對國外神經編碼相關的研究有關注嗎？劉浩杰：Google的編碼團隊在整個端到端系統上做出了很多基礎性的工作，從最早的基于遞歸模型的圖像編碼開始，以及之后的基于Variational autoencoder (VAE) 變分自編碼器的壓縮模型成為了目前大多數工作的基礎，在此基礎上很多工作對于特征變換、量化、以及多層級的概率模塊來得到更好的壓縮性能。蘇黎世聯邦理工ETH的視覺實驗室所提出的很多工作，包括soft-to-hard的量化方法、3D概率模型、極低碼率的圖像壓縮方法以及他們所提出的端到端視頻編碼系統都對神經編碼這個領域有著很大的貢獻，同時他們還復現并開源了端到端視頻編碼DVC的工作，給很多研究人員帶來了極大的便利。我也有關注Disney的方法，他們發表于ICCV 2019的文章，利用視頻內插（video interpolation）的思路，引入了編碼的約束來得到中間幀，同時他們提出了從特征域去做殘差補償的編碼方法，最終得到很好的編碼性能。 LiveVideoStack：有關中間編碼的應用？劉浩杰：由于神經編碼的變換一般通過特征提取的方式得到量化的特征，而很多計算機視覺任務一般也通過特征提取和表達來進行一些視覺任務，因此在進行一些視覺任務時，可以通過中間編碼的特征直接去做一些視覺任務而極大減少解碼還原成圖像的時間成本和復雜度。這樣的方法能很好地應用在一些機器視覺的方法中，并提高這些方法的應用效率。

For Traditional Video Coding

LiveVideoStack：傳統編碼的局限性有哪些？劉浩杰：1）傳統視頻編碼框架延續了基于塊的混合編碼框架已經近20多年了，并取得了很大的成功，其成功很大程度地受益于硬件的不斷發展。但受限于摩爾定律，硬件發展逐漸陷入瓶頸，通過計算復雜度來進一步換取編碼性能日益困難，硬件設計的成本和難度也不斷提高。2）此外，如今視頻編碼已經不僅僅局限于滿足用戶端的觀看需求，在用戶需求不斷增長和變化的當下，視頻編碼傳輸后的分析和其他視覺應用也更加豐富，對于一些新穎的視頻編碼算法和框架的探索和發展顯得尤為重要。3）傳統編碼主要集中在基于像素的預測，無法更好利用特征域的相關性更好地解決數據間的去冗余，此外基于學習的視頻編解碼能端到端地優化編解碼器以及相關的模塊。 LiveVideoStack：如何評價VVC等新一代的傳統編解碼器？劉浩杰：就整體上VVC仍然遵循著相同的混合編碼框架，包括塊劃分、幀內預測、幀間預測、變換與量化、熵編碼、濾波等，在每一個特定的技術點上，VVC都比原有技術有著進一步的提升。客觀質量而言，對于SDR視頻能比HEVC最高節省超過40%的碼率，并且對HDR以及VR視頻也有著相同的增益，其主觀性能也明顯高于HEVC。 LiveVideoStack：神經編碼與傳統編碼的相同與不同？劉浩杰：神經編碼和傳統編碼從本質上都是通過利用視頻的時空相關性和對應的先驗信息來去冗余，從而能更緊湊地表達視頻信息，通過率失真優化盡可能用有限的信息來得到更高的視頻重建。從復雜度方面來講，由于目前傳統編碼和神經視頻編碼依賴的計算平臺有區別，同時神經編碼在工程化和硬件化領域上的發展遠遠不夠成熟，相信隨著人工智能芯片的發展，神經網絡量化定點化的成熟，神經編碼在各方面的優勢會逐漸體現。目前已有很多研究成果在GPU上能實現實時的圖像編解碼算法，并有較好的主觀圖像重建性能。

For the Very Close Future

LiveVideoStack：端到端的神經編碼的相關應用場景？劉浩杰：1）基于目標的端到端圖像編碼，我們在研究過程中發現其在監控場景下的車牌識別、行人識別任務上有著很好的表現和性能。2）在極低碼率下得到很高精度的重建圖像視頻，能在一些帶寬極其受限的場景下有著廣闊的應用場景，例如深海探測，航空通信等。 LiveVideoStack：神經編碼應用的落地及普及需要哪些條件？劉浩杰：1）有更多的團隊來共同來對神經編碼去制定一些統一的標準。2）更多的代碼開源以及更多的開放接口便于其他模塊接入。3）神經網絡硬件的成熟和發展。 LiveVideoStack：有關神經編碼本身有哪些仍需要被解決的難題？劉浩杰：1）由于神經編碼后續模塊的不斷增加，如何更好地對多模塊進行端到端訓練是一個需要解決的問題。2）神經編碼目前性能比較的基準沒有一個比較好的統一標準。3）多幀間的率失真優化和碼率分配問題在訓練過程中往往很難解決，一個模型很難在所有序列上達到整體的最優性能，模式選擇以及訓練多模型對于性能來說也尤其重要。 LiveVideoStack：機器學習在視頻編解碼中的應用前景？劉浩杰：1）利用機器學習的方法替代傳統視頻編碼中的相關模塊，機器學習或者深度學習在圖像視頻預測、去噪去塊等方法都有著比傳統方法更優越的性能，用相對應的模塊去做替換能極大的提升傳統編碼的性能。2）設計一個全新的端到端的基于學習的視頻編碼框架，如更好的圖像變換，幀內幀間預測模塊、量化、概率模型等。3）機器學習能拓展視頻編碼應用的邊界，從最早的只服務于用戶端的觀看需求，到如今服務于各種機器視覺任務，以及面向更高效的客戶端的視頻處理和分析。 LiveVideoStack：如何看待神經編碼未來的發展？劉浩杰：在研究端到端視頻編碼框架的同時，我們實驗室也提出了一些面向硬件的神經網絡編碼定點化，同時我們的算法也有基于一些神經網絡芯片進行簡化并在上面進行測試。AI芯片以及面向這些芯片如何去優化設計端到端的編碼系統是一個重要的問題，這也關系到神經編碼的未來落地應用。

此外，劉浩杰所在實驗室的端到端圖像編碼算法參加了Google舉辦的第二屆圖像編碼比賽（https://openaccess.thecvf.com/content_CVPRW_2019/papers/CLIC%202019/Liu_Practical_Stacked_Non-local_Attention_Modules_for_Image_Compression_CVPRW_2019_paper.pdf），其中MS-SSIM指標在所有提交算法中排名第二，后續開源模型在客觀和主觀指標上能穩定超過BPG算法，在一定圖像上達到并超過VVC的性能。其相關成果支持基于目標的編碼、特征域的多種視覺任務（PCM best paper finallist）、極低碼率的高質量圖像重建等，在對視頻預測方面也提出了多種方法進一步提升幀間預測的性能和效率。編輯：Coco Liang

原文標題：端到端神經視頻編碼=A Better Trade-off ？

文章出處：【微信公眾號：LiveVideoStack】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴