英偉達(dá)團(tuán)隊CVPR-18論文Super SloMo使用深度學(xué)習(xí),能將任意視頻變?yōu)椤案咔迓俨シ拧蹦J剑瑥拇瞬辉馘e過任何細(xì)節(jié)。今天有人開源了PyTorch實現(xiàn),趕緊來試試吧!
總有那么一些細(xì)節(jié),你瞪大雙眼拼了命想看清卻依然奈不了何,比如下面這個:
跟得上球嗎?要看清男子羽毛球比賽的細(xì)節(jié)實在不容易
有時候想盯住飛來飛去的羽毛球,非常吃力,這就是人類肉眼的極限。
你或許會說,好解決啊,用慢速回放功能就行了。
確實可以回放,但慢速回放的前提,是攝像機(jī)一開始就捕捉到了這些細(xì)節(jié)。如今,一些大型體育賽事已經(jīng)用上了工業(yè)高速攝像頭,為的就是在裁判的裁決引發(fā)爭議時,可以用慢鏡頭回放來判定結(jié)果。
但是,沒有專業(yè)的高速攝像頭怎么辦?
像我們用智能手機(jī)拍的視頻,記錄下生活中很多美好,隨風(fēng)飄逝的晚霞,又或者池塘濺起的漣漪,還有孩子們在泳池里潑水嬉戲,如果都能夠放慢了觀看,必將帶來全新的感受。
正因如此,當(dāng)今年計算機(jī)視覺頂會CVPR舉行時,英偉達(dá)團(tuán)隊的一篇能讓手機(jī)拍攝的視頻也“高清慢速播放”的論文,在業(yè)界引發(fā)了很大的反響。
這項被稱為Super SloMo的工作,使用深度神經(jīng)網(wǎng)絡(luò),對視頻中缺失的幀進(jìn)行預(yù)測并補(bǔ)全,從而生成連續(xù)慢速回放的效果。
更贊的是,他們提出的方法,能夠排除原視頻幀當(dāng)中被遮擋的像素,從而避免在生成的內(nèi)插中間幀里產(chǎn)生模糊的偽像(artifact)。
值得一提,這篇論文的第一作者,是本碩畢業(yè)于西安交通大學(xué)、現(xiàn)在馬薩諸塞大學(xué)阿默斯特分校讀博四的Huaizu Jiang。第二作者Deqing Sun是英偉達(dá)學(xué)習(xí)與感知研究小組的高級研究員,本科畢業(yè)于哈工大,碩士讀的港中文,在布朗大學(xué)取得博士學(xué)位后,在哈佛Hanspeter Pfister教授的視覺研究小組做過博士后。
感受一下Super-SloMo生成的“慢速回放”效果:
注意,左右兩邊都是Super SloMo生成的視頻。左邊是原始慢速視頻,右邊是將這個結(jié)果再放慢4倍的效果,如果不告訴你中間的細(xì)節(jié)(幀)是神經(jīng)網(wǎng)絡(luò)生成的,你會不會把它們當(dāng)做真的慢速回放?來源:Huaizu Jiang個人主頁
實際用手機(jī)拍攝的畫面是這樣的,對比后,意識到Super SloMo補(bǔ)充多少細(xì)節(jié)了嗎?
論文作者稱,他們能將30FPS(畫面每秒幀數(shù))的視頻變?yōu)?80FPS,也即每秒幀數(shù)增加了16倍。
根據(jù)Super SloMo項目主頁,作者表示,使用他們未經(jīng)優(yōu)化的PyTorch代碼,在單個NVIDIA GTX 1080Ti 和 Tesla V100 GPU上,生成7個分辨率為1280*720的中間幀,分別只需要0.97秒和0.79秒。(補(bǔ)充說明:從標(biāo)準(zhǔn)序列30-fps生成240-fps視頻,一般需要在兩個連續(xù)幀內(nèi)插入7個中間幀。)
效果當(dāng)然稱得上驚艷。然而,令很多人失望的是,論文發(fā)布時并沒有將代碼和數(shù)據(jù)集公開,盡管作者表示可以聯(lián)系 Huaizu Jiang 獲取部分原始資料。
僅在論文中提到的數(shù)據(jù)和示例。來源:Super SloMo論文
今天,有人在 Github 上開源了他對 Super-SloMo 的 PyTorch 實現(xiàn)。這位ID為atplwl的Reddit用戶,在作者提供的adobe24fps數(shù)據(jù)集上預(yù)訓(xùn)練的模型(下圖中pretrained mine),實現(xiàn)了與論文描述相差無幾的結(jié)果。
現(xiàn)在,這個預(yù)訓(xùn)練模型,還有相關(guān)的代碼、數(shù)據(jù)集,以及實現(xiàn)條件,都能在GitHub上查到。
自稱新手的atplwl表示,他目前在努力完善這個GitHub庫,接下來預(yù)計添加一個PyThon腳本,將視頻轉(zhuǎn)換為更高的fps視頻,歡迎大家提供建議。
Super SloMo PyTorch實現(xiàn)地址(點擊閱讀原文訪問):https://github.com/avinashpaliwal/Super-SloMo
Super SloMo:將任意視頻變?yōu)椤案咔迓俨シ拧?/p>
代碼在手,再看論文——前文已經(jīng)說過,從已有視頻中生成高清慢速視頻是一件非常有意義的事情。
除了專業(yè)的高速攝像機(jī)尚未普及到每個人手里,人們用手機(jī)拍攝的視頻 (一般為240FPS) 想要放慢的時刻是不可預(yù)測的,要實現(xiàn)這一點就不得不用標(biāo)準(zhǔn)幀速率來記錄所有視頻,但這樣做需要的內(nèi)存過大,對移動設(shè)備來說耗電量也花不起。
現(xiàn)在,計算機(jī)視覺領(lǐng)域,除了將標(biāo)準(zhǔn)視頻轉(zhuǎn)換為更高的幀速率之外,還可以使用視頻插值來生成平滑的視圖轉(zhuǎn)換。在自監(jiān)督學(xué)習(xí)中,這也可以作為監(jiān)控信號來學(xué)習(xí)未標(biāo)記視頻的光流。
不過,生成多個中間視頻幀 (intermediate video frame) 是具有挑戰(zhàn)性的,因為幀必須在空間和時間上是連貫的。例如,從30-fps標(biāo)準(zhǔn)序列生成240-fps視頻,需要在兩個連續(xù)幀內(nèi)插入7個中間幀。
成功的解決方案不僅要正確解釋兩個輸入圖像之間的運動(隱式或顯式),還要理解遮擋 (occlusion)。 否則,就可能導(dǎo)致插值幀中產(chǎn)生嚴(yán)重的偽像,尤其是在運動邊界附近。
現(xiàn)有方法主要集中于單幀視頻插值,而且已經(jīng)取得了不錯的進(jìn)展。然而,這些方法不能直接用于生成任意高幀率視頻。
雖然遞歸地應(yīng)用單幀視頻插值方法生成多個中間幀是一個很不錯的想法,但這種方法至少有兩個限制:
首先,遞歸單幀插值不能完全并行化,速度較慢,因為有些幀是在其他幀完成后才進(jìn)行計算的(例如,在七幀插值中,幀2取決于0和4,而幀4取決于0和8)。
其次,它只能生成2i-1個中間幀。因此,不能使用這種方法有效生地生成1008 - fps 24幀的視頻,這需要生成41中間幀。
論文Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation提出了一種高質(zhì)量的變長多幀插值方法,該方法可以在兩幀之間的任意時間步長進(jìn)行插值。
其主要思想是,將輸入的兩幅圖像扭曲到特定的時間步長,然后自適應(yīng)地融合這兩幅扭曲圖像,生成中間圖像,其中的運動解釋和遮擋推理在單個端到端可訓(xùn)練網(wǎng)絡(luò)中建模。
Super SloMo效果展示:注意在放慢過渡區(qū)域?qū)蜗竦奶幚怼?/p>
具體來說,首先使用流量計算CNN來估計兩幅輸入圖像之間的雙向光流,然后線性融合來近似所需的中間光流,從而使輸入圖像發(fā)生扭曲。這種近似方法適用于光滑區(qū)域,但不適用于運動邊界。
因此,Super SloMo 論文作者使用另一個流量插值CNN來細(xì)化流近似并預(yù)測軟可見性圖。
通過在融合之前將可見性圖應(yīng)用于變形圖像,排除了被遮擋像素對內(nèi)插中間幀的貢獻(xiàn),從而減少了偽像。
Super SloMo網(wǎng)絡(luò)架構(gòu)
“我們的流計算和插值網(wǎng)絡(luò)的參數(shù)都獨立于被插值的具體時間步長,是流插值網(wǎng)絡(luò)的輸入。因此,我們的方法可以并行生成任意多的中間幀。”作者在論文中寫道。
為了訓(xùn)練該網(wǎng)絡(luò),團(tuán)隊從YouTube和手持?jǐn)z像機(jī)收集了240-fps的視頻。總量有1.1K視頻剪輯,由300K個獨立視頻幀組成,典型分辨率為1080×720。
然后,團(tuán)隊在其他幾個需要不同插值數(shù)量的獨立數(shù)據(jù)集上評估了訓(xùn)練模型,包括Middlebury 、 UCF101 、慢流(slowflow)數(shù)據(jù)集和高幀率(high-frame-rate) MPI Sintel。
實驗結(jié)果表明,該方法明顯優(yōu)于所有數(shù)據(jù)集上的現(xiàn)有方法。 團(tuán)隊還在KITTI 2012光流基準(zhǔn)上評估了無監(jiān)督(自監(jiān)督)光流結(jié)果,并獲得了比現(xiàn)有最近方法更好的結(jié)果。
Super SloMo項目主頁:https://people.cs.umass.edu/~hzjiang/projects/superslomo/
Super SloMo PyTorch實現(xiàn)Github地址:
https://github.com/avinashpaliwal/Super-SloMo
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4812瀏覽量
103215 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5557瀏覽量
122658 -
pytorch
+關(guān)注
關(guān)注
2文章
809瀏覽量
13869
原文標(biāo)題:干掉高速攝像頭!神經(jīng)網(wǎng)絡(luò)生成極慢視頻,突破人類肉眼極限(PyTorch實現(xiàn))
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
英偉達(dá)市值一夜蒸發(fā)近2萬億 英偉達(dá)股價下跌超8%
黃仁勛:英偉達(dá)CoWoS產(chǎn)能將大幅增加
英偉達(dá)組建ASIC團(tuán)隊,挖掘臺灣設(shè)計服務(wù)人才
英偉達(dá)被中國立案調(diào)查!涉嫌違反反壟斷法,最新回應(yīng)!


加速拋棄英偉達(dá),微軟又發(fā)布一顆芯片 #微軟 #英偉達(dá) #半導(dǎo)體 #芯片 #電路知識
英偉達(dá)與谷歌攜手加速量子計算設(shè)備設(shè)計
英偉達(dá)與軟銀攜手共建日本AI基礎(chǔ)設(shè)施
英偉達(dá)超越蘋果成為市值最高 英偉達(dá)取代英特爾加入道指
不同高清視頻線接頭類型解析
英偉達(dá)市值飆升,逼近蘋果

英偉達(dá)Blackwell架構(gòu)揭秘:下一個AI計算里程碑?# 英偉達(dá)# 英偉達(dá)Blackwell
英偉達(dá)發(fā)布新版NVIDIAApp
阿爾特攜手英偉達(dá),將Omniverse融入機(jī)器人研發(fā)

評論