女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一項(xiàng)新的視聽(tīng)分割任務(wù)

OpenCV學(xué)堂 ? 來(lái)源:量子位 ? 作者:量子位 ? 2022-08-08 10:23 ? 次閱讀

聽(tīng)到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來(lái)自路過(guò)的一輛急救車。

能不能讓AI根據(jù)音頻信號(hào)得到發(fā)聲物完整的、精細(xì)化的掩碼圖呢?

來(lái)自合肥工業(yè)大學(xué)、商湯、澳國(guó)立、北航、英偉達(dá)、港大和上海人工智能實(shí)驗(yàn)室的研究者提出了一項(xiàng)新的視聽(tīng)分割任務(wù)(Audio-Visual Segmentation, AVS)。

視聽(tīng)分割,就是要分割出發(fā)聲物,而后生成發(fā)聲物的精細(xì)化分割圖。

相應(yīng)的,研究人員提出了第一個(gè)具有像素級(jí)標(biāo)注的視聽(tīng)數(shù)據(jù)集AVSBench。

新任務(wù)、新的數(shù)據(jù)集,搞算法的又有新坑可以卷了。

據(jù)最新放榜結(jié)果,該論文已被ECCV 2022接受。

精準(zhǔn)鎖定發(fā)聲物

聽(tīng)覺(jué)和視覺(jué)是人類感知世界中最重要的兩個(gè)傳感器。生活里,聲音信號(hào)和視覺(jué)信號(hào)往往是互補(bǔ)的。

視聽(tīng)表征學(xué)習(xí)(audio-visual learning)已經(jīng)催生了很多有趣的任務(wù),比如視聽(tīng)通信(AVC)、視聽(tīng)事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。

這里面既有判定音像是否描述同一事件/物體的分類任務(wù),也有以熱力圖可視化大致定位發(fā)聲物的任務(wù)。

但無(wú)論哪一種,離精細(xì)化的視聽(tīng)場(chǎng)景理解都差點(diǎn)意思。

9a6bb8d6-14bc-11ed-ba43-dac502259ad0.png

△ AVS 任務(wù)與 SSL 任務(wù)的比較

視聽(tīng)分割“迎難而上”,提出要準(zhǔn)確分割出視頻幀中正在發(fā)聲的物體全貌——

即以音頻為指導(dǎo)信號(hào),確定分割哪個(gè)物體,并得到其完整的像素級(jí)掩碼圖。

AVSBench 數(shù)據(jù)集

要怎么研究這個(gè)新任務(wù)呢?

鑒于當(dāng)前還沒(méi)有視聽(tīng)分割的開(kāi)源數(shù)據(jù)集,研究人員提出AVSBench 數(shù)據(jù)集,借助它研究了新任務(wù)的兩種設(shè)置:

1、單聲源(Single-source)下的視聽(tīng)分割 2、多聲源(Multi-sources)下的視聽(tīng)分割

數(shù)據(jù)集中的每個(gè)視頻時(shí)長(zhǎng)5秒。

單聲源子集包含23類,共4932個(gè)視頻,包含嬰兒、貓狗、吉他、賽車、除草機(jī)等與日常生活息息相關(guān)的發(fā)聲物。

9a9b0956-14bc-11ed-ba43-dac502259ad0.png

△AVSBench單源子集的數(shù)據(jù)分布

多聲源子集則包含了424個(gè)視頻。

結(jié)合難易情況,單聲源子集在半監(jiān)督條件下進(jìn)行,多聲源子集則以全監(jiān)督條件進(jìn)行。

研究人員對(duì)AVSBench里的每個(gè)視頻等間隔采樣5幀,然后人工對(duì)發(fā)聲體進(jìn)行像素級(jí)標(biāo)注。

對(duì)于單聲源子集,僅標(biāo)注采樣的第一張視頻幀;對(duì)于多聲源子集,5幀圖像都被標(biāo)注——這就是所謂的半監(jiān)督和全監(jiān)督。

9aaee368-14bc-11ed-ba43-dac502259ad0.png

△對(duì)單聲源子集和多聲源子集進(jìn)行不同人工標(biāo)注

這種像素級(jí)的標(biāo)注,避免了將很多非發(fā)聲物或背景給包含進(jìn)來(lái),從而增加了模型驗(yàn)證的準(zhǔn)確性。

一個(gè)簡(jiǎn)單的baseline方法

有了數(shù)據(jù)集,研究人員還拋磚引玉,在文中給了個(gè)簡(jiǎn)單的baseline。

吸收傳統(tǒng)語(yǔ)義分割模型的成功經(jīng)驗(yàn),研究人員提出了一個(gè)端到端的視聽(tīng)分割模型。

9ce74d64-14bc-11ed-ba43-dac502259ad0.png

△視聽(tīng)分割框架圖

這個(gè)模型遵循編碼器-解碼器的網(wǎng)絡(luò)架構(gòu),輸入視頻幀,最終直接輸出分割掩碼。

另外,還有兩個(gè)網(wǎng)絡(luò)優(yōu)化目標(biāo)。

一是計(jì)算預(yù)測(cè)圖和真實(shí)標(biāo)簽的損失。

而針對(duì)多聲源情況,研究人員提出了掩碼視聽(tīng)匹配損失函數(shù),用來(lái)約束發(fā)聲物和音頻特征在特征空間中保持相似分布。

部分實(shí)驗(yàn)結(jié)果

光說(shuō)不練假把式,研究人員進(jìn)行了廣泛實(shí)驗(yàn)。

首先,將視聽(tīng)分割與相關(guān)任務(wù)的6種方法進(jìn)行了比較,研究人員選取了聲源定位(SSL)、視頻物體分割(VOS)、顯著性物體檢測(cè)(SOD)任務(wù)上的各兩個(gè)SOTA方法。

實(shí)驗(yàn)結(jié)果表明,視聽(tīng)分割在多個(gè)指標(biāo)下取得了最佳結(jié)果。

9d05089a-14bc-11ed-ba43-dac502259ad0.png

△和來(lái)自相關(guān)任務(wù)方法進(jìn)行視聽(tīng)分割的對(duì)比結(jié)果

其次,研究人員進(jìn)行了一系列消融實(shí)驗(yàn),驗(yàn)證出,利用TPAVI模塊,單聲源和多聲源設(shè)置下采用兩種backbone的視聽(tīng)分割模型都能得到更大的提升。

9d1434aa-14bc-11ed-ba43-dac502259ad0.png

△引入音頻的TPAVI模塊,可以更好地處理物體的形狀細(xì)節(jié)(左圖),并且有助于分割出正確的發(fā)聲物(右圖)

對(duì)于新任務(wù)的視聽(tīng)匹配損失函數(shù),實(shí)驗(yàn)還驗(yàn)證了其有效性。

9d24a2a4-14bc-11ed-ba43-dac502259ad0.png

△視聽(tīng)匹配損失函數(shù)的有效性

One More Thing

文中還提到,AVSBench數(shù)據(jù)集不僅可以用于所提出的視聽(tīng)分割模型的訓(xùn)練、測(cè)試,其也可以用于驗(yàn)證聲源定位模型。

研究人員在項(xiàng)目主頁(yè)上表示,正在準(zhǔn)備比AVSBench大10倍的AVSBench-v2。

審核編輯:彭靜

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3776

    瀏覽量

    137199
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34290

    瀏覽量

    275470
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25281

原文標(biāo)題:聽(tīng)聲辨物,這是AI視覺(jué)該干的???|ECCV 2022

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    下圖中的與打開(kāi)文件相連的枚舉常量是自己一項(xiàng)一項(xiàng)編輯...

    下圖中的與打開(kāi)文件相連的枚舉常量是自己一項(xiàng)一項(xiàng)編輯的還是自動(dòng)就有的?
    發(fā)表于 03-17 21:39

    DropDown小工具不知道當(dāng)前選擇的是哪一項(xiàng)

    DropDown小工具的API就這么多,真不知道那個(gè)函數(shù)能返回當(dāng)前選擇的是哪一項(xiàng),就算是返回選擇的索引的函數(shù)也沒(méi)有,都不知道當(dāng)前選擇的是哪一項(xiàng),那這個(gè)DropDown小工具還有什么用,難道只能做出來(lái)當(dāng)擺設(shè),看了例程也沒(méi)有用它選擇的是哪
    發(fā)表于 03-09 23:06

    請(qǐng)教Ring控件刪除最后一項(xiàng)

    請(qǐng)問(wèn):Ring控件,刪除其下拉內(nèi)容最后一項(xiàng),顯示不正常(如顯示為:),怎樣糾正?
    發(fā)表于 04-12 17:09

    關(guān)于電機(jī)驅(qū)動(dòng)原理的動(dòng)畫(huà),哪位大佬可以分享一項(xiàng)嗎?

    關(guān)于電機(jī)驅(qū)動(dòng)原理的動(dòng)畫(huà),哪位大佬可以分享一項(xiàng)嗎?
    發(fā)表于 10-13 06:17

    通過(guò)任務(wù)分割提高嵌入式系統(tǒng)的實(shí)時(shí)性

    分析長(zhǎng)任務(wù)對(duì)嵌入式系統(tǒng)實(shí)時(shí)性的影響,在此基礎(chǔ)上提出任務(wù)分割是提高嵌入式系統(tǒng)實(shí)時(shí)性的種有效途徑; 總結(jié)長(zhǎng)任務(wù)
    發(fā)表于 05-15 15:07 ?4次下載

    漆包線標(biāo)準(zhǔn)中的一項(xiàng)差距

    漆包線標(biāo)準(zhǔn)中的一項(xiàng)差距:我國(guó)漆包線標(biāo)準(zhǔn)是根據(jù)IEC標(biāo)準(zhǔn)制定的, 而IEC標(biāo)準(zhǔn)在國(guó)際上并不是最先進(jìn)的標(biāo)準(zhǔn)。在這里只討論IEC漆包線標(biāo)準(zhǔn)與先進(jìn)標(biāo)準(zhǔn)相比的一項(xiàng)差距在西德的些公司
    發(fā)表于 06-12 20:55 ?13次下載

    聚焦語(yǔ)義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語(yǔ)義圖像分割?

    CNN架構(gòu)圖像語(yǔ)義分割 圖像分割是根據(jù)圖像內(nèi)容對(duì)指定區(qū)域進(jìn)行標(biāo)記的計(jì)算機(jī)視覺(jué)任務(wù),簡(jiǎn)言之就是「這張圖片里有什么,其在圖片中的位置是什么?」本文聚焦于語(yǔ)義分割
    發(fā)表于 09-17 15:21 ?650次閱讀

    一項(xiàng)新的研究表明,免費(fèi)上網(wǎng)應(yīng)該成為一項(xiàng)基本人權(quán)

    一項(xiàng)新的研究表明,免費(fèi)上網(wǎng)必須被視為一項(xiàng)人權(quán),因?yàn)闊o(wú)法上網(wǎng)的人們(尤其是在發(fā)展中國(guó)家)缺乏有意義的方式來(lái)影響全球參與者塑造他們的日常生活。
    的頭像 發(fā)表于 04-21 17:35 ?3237次閱讀

    大華股份AI刷新了Cityscapes數(shù)據(jù)集中語(yǔ)義分割任務(wù)的全球最好成績(jī)

    Task)的全球最好成績(jī),在語(yǔ)義分割任務(wù)上四項(xiàng)指標(biāo)均取得第,超越了其它流AI公司和頂尖的學(xué)術(shù)研究機(jī)構(gòu),彰顯了大華在語(yǔ)義
    的頭像 發(fā)表于 11-05 18:29 ?4486次閱讀

    研究者提出了一項(xiàng)新的視聽(tīng)分割任務(wù)

    視聽(tīng)表征學(xué)習(xí)(audio-visual learning)已經(jīng)催生了很多有趣的任務(wù),比如視聽(tīng)通信(AVC)、視聽(tīng)事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。
    的頭像 發(fā)表于 08-08 16:45 ?925次閱讀

    文讀懂圖像分割

    圖像分割(Image Segmentation)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要基礎(chǔ)技術(shù),是圖像理解中的重要環(huán)。
    的頭像 發(fā)表于 02-28 09:55 ?2337次閱讀

    沒(méi)你想的那么難 | 文讀懂圖像分割

    來(lái)源:圖靈Topia(ID:turingtopia)圖像分割(ImageSegmentation)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要基礎(chǔ)技術(shù),是圖像理解中的重要環(huán)。近日,數(shù)據(jù)科學(xué)家
    的頭像 發(fā)表于 05-16 09:21 ?1304次閱讀
    沒(méi)你想的那么難 | <b class='flag-5'>一</b>文讀懂圖像<b class='flag-5'>分割</b>

    介紹種自動(dòng)駕駛汽車中可行駛區(qū)域和車道分割的高效輕量級(jí)模型

    本文介紹了TwinLiteNet:種自動(dòng)駕駛汽車中可行駛區(qū)域和車道分割的高效輕量級(jí)模型。語(yǔ)義分割是自動(dòng)駕駛中理解周圍環(huán)境的一項(xiàng)常見(jiàn)任務(wù)。
    發(fā)表于 08-03 14:20 ?1624次閱讀
    介紹<b class='flag-5'>一</b>種自動(dòng)駕駛汽車中可行駛區(qū)域和車道<b class='flag-5'>分割</b>的高效輕量級(jí)模型

    什么是圖像分割?圖像分割的體系結(jié)構(gòu)和方法

    圖像分割(Image Segmentation)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要基礎(chǔ)技術(shù),是圖像理解中的重要環(huán)。前端時(shí)間,數(shù)據(jù)科學(xué)家Derrick Mwiti在篇文章中,就什么是圖像
    的頭像 發(fā)表于 08-18 10:34 ?7467次閱讀
    什么是圖像<b class='flag-5'>分割</b>?圖像<b class='flag-5'>分割</b>的體系結(jié)構(gòu)和方法

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    在機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法,包括常見(jiàn)的
    的頭像 發(fā)表于 07-10 16:10 ?2983次閱讀