成版人短视频APP破解版,亚洲欧洲日产国产综合,97精品视频在线观看免费

聽到“唔哩——唔哩——”的警笛聲，你可以迅速判斷出聲音來自路過的一輛急救車。

能不能讓AI根據(jù)音頻信號得到發(fā)聲物完整的、精細化的掩碼圖呢？

來自合肥工業(yè)大學(xué)、商湯、澳國立、北航、英偉達、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務(wù)（Audio-Visual Segmentation, AVS)。

視聽分割，就是要分割出發(fā)聲物，而后生成發(fā)聲物的精細化分割圖。

相應(yīng)的，研究人員提出了第一個具有像素級標(biāo)注的視聽數(shù)據(jù)集AVSBench。

Audio-Visual Segmentation

論文地址：

https://arxiv.org/abs/2207.05042

GitHub地址：

https://github.com/OpenNLPLab/AVSBench

項目主頁：

https://opennlplab.github.io/AVSBench/

新任務(wù)、新的數(shù)據(jù)集，搞算法的又有新坑可以卷了。

據(jù)最新放榜結(jié)果，該論文已被ECCV 2022接受。

精準(zhǔn)鎖定發(fā)聲物

聽覺和視覺是人類感知世界中最重要的兩個傳感器。生活里，聲音信號和視覺信號往往是互補的。

視聽表征學(xué)習(xí)（audio-visual learning）已經(jīng)催生了很多有趣的任務(wù)，比如視聽通信（AVC）、視聽事件定位（AVEL）、視頻解析（AVVP）、聲源定位（SSL）等。

這里面既有判定音像是否描述同一事件/物體的分類任務(wù)，也有以熱力圖可視化大致定位發(fā)聲物的任務(wù)。

但無論哪一種，離精細化的視聽場景理解都差點意思。

△AVS 任務(wù)與 SSL 任務(wù)的比較

視聽分割“迎難而上”，提出要準(zhǔn)確分割出視頻幀中正在發(fā)聲的物體全貌——

即以音頻為指導(dǎo)信號，確定分割哪個物體，并得到其完整的像素級掩碼圖。

AVSBench 數(shù)據(jù)集

要怎么研究這個新任務(wù)呢？

鑒于當(dāng)前還沒有視聽分割的開源數(shù)據(jù)集，研究人員提出AVSBench 數(shù)據(jù)集，借助它研究了新任務(wù)的兩種設(shè)置：

1、單聲源（Single-source）下的視聽分割
2、多聲源（Multi-sources）下的視聽分割

數(shù)據(jù)集中的每個視頻時長5秒。

單聲源子集包含23類，共4932個視頻，包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關(guān)的發(fā)聲物。

△AVSBench單源子集的數(shù)據(jù)分布

多聲源子集則包含了424個視頻。

結(jié)合難易情況，單聲源子集在半監(jiān)督條件下進行，多聲源子集則以全監(jiān)督條件進行。

研究人員對AVSBench里的每個視頻等間隔采樣5幀，然后人工對發(fā)聲體進行像素級標(biāo)注。

對于單聲源子集，僅標(biāo)注采樣的第一張視頻幀；對于多聲源子集，5幀圖像都被標(biāo)注——這就是所謂的半監(jiān)督和全監(jiān)督。

△對單聲源子集和多聲源子集進行不同人工標(biāo)注

這種像素級的標(biāo)注，避免了將很多非發(fā)聲物或背景給包含進來，從而增加了模型驗證的準(zhǔn)確性。

一個簡單的baseline方法

有了數(shù)據(jù)集，研究人員還拋磚引玉，在文中給了個簡單的baseline。

吸收傳統(tǒng)語義分割模型的成功經(jīng)驗，研究人員提出了一個端到端的視聽分割模型。

△視聽分割框架圖

這個模型遵循編碼器-解碼器的網(wǎng)絡(luò)架構(gòu)，輸入視頻幀，最終直接輸出分割掩碼。

另外，還有兩個網(wǎng)絡(luò)優(yōu)化目標(biāo)。

一是計算預(yù)測圖和真實標(biāo)簽的損失。

而針對多聲源情況，研究人員提出了掩碼視聽匹配損失函數(shù)，用來約束發(fā)聲物和音頻特征在特征空間中保持相似分布。

部分實驗結(jié)果

光說不練假把式，研究人員進行了廣泛實驗。

首先，將視聽分割與相關(guān)任務(wù)的6種方法進行了比較，研究人員選取了聲源定位（SSL）、視頻物體分割（VOS）、顯著性物體檢測（SOD）任務(wù)上的各兩個SOTA方法。

實驗結(jié)果表明，視聽分割在多個指標(biāo)下取得了最佳結(jié)果。

△和來自相關(guān)任務(wù)方法進行視聽分割的對比結(jié)果

其次，研究人員進行了一系列消融實驗，驗證出，利用TPAVI模塊，單聲源和多聲源設(shè)置下采用兩種backbone的視聽分割模型都能得到更大的提升。

△引入音頻的TPAVI模塊，可以更好地處理物體的形狀細節(jié)（左圖），并且有助于分割出正確的發(fā)聲物（右圖）

對于新任務(wù)的視聽匹配損失函數(shù)，實驗還驗證了其有效性。

△視聽匹配損失函數(shù)的有效性

One More Thing

文中還提到，AVSBench數(shù)據(jù)集不僅可以用于所提出的視聽分割模型的訓(xùn)練、測試，其也可以用于驗證聲源定位模型。

研究人員在項目主頁上表示，正在準(zhǔn)備比AVSBench大10倍的AVSBench-v2。

一些視頻的分割demo也上傳在主頁上。感興趣的話可以前往查看~

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器視覺

機器視覺

+關(guān)注

關(guān)注
163

文章
4514

瀏覽量
122303
AI

AI

+關(guān)注

關(guān)注
87

文章
34294

瀏覽量
275474
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1223

瀏覽量
25283

原文標(biāo)題：ECCV 2022 | 視覺新任務(wù)！AVS：視聽分割

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

研究者提出了一項新的視聽分割任務(wù)

評論