Facebook Research最近發(fā)布了Demucs,這是一種用于音樂源分離的新型深度學(xué)習(xí)系統(tǒng)。根據(jù)人類對分離后聲音總體質(zhì)量的評估,Demucs的性能優(yōu)于先前報道的結(jié)果。
音樂源分離是經(jīng)過大量研究的一種應(yīng)用,稱為盲源分離。該過程包括在不借助元信息的情況下從一組混合信號中分離出一組源信號。對于音樂,各個組成部分可能包括人聲或其他樂器軌道。當(dāng)空中交通管制員開始在單個揚聲器上聽到多個飛行員的混合聲音時出現(xiàn)問題時,源分離領(lǐng)域首先受到了廣泛關(guān)注。這導(dǎo)致英國科學(xué)家科林·切里(Colin Cherry)在1953年將這種效應(yīng)稱為“雞尾酒會問題”。
在源分離領(lǐng)域的現(xiàn)有研究的推動下,研究科學(xué)家于2000年代初開始使用AI分離音樂中的聲音。如今,短時傅立葉變換產(chǎn)生的頻譜圖(STFT)是最新音樂源分離的核心。這些系統(tǒng)在每個幀和每個源的幅度譜上產(chǎn)生一個掩碼,并且通過在掩碼頻譜圖上運行逆STFT的同時重新使用輸入混合相位,來生成輸出音頻。
建立在頻譜圖分析基礎(chǔ)上的系統(tǒng)在諸如中音鋼琴或連奏小提琴之類的樂器的源分離方面表現(xiàn)出色,因為它們可以產(chǎn)生一致的頻率和振鈴。但是,這些系統(tǒng)很難隔離敲擊聲音,因為敲擊樂器所產(chǎn)生的殘留噪聲會產(chǎn)生更寬的頻率范圍,并且當(dāng)與多個樂器的重疊相結(jié)合時,信息就會丟失,并且掩蓋操作將使信息不再可逆。
Demucs是一種深度學(xué)習(xí)模型,可直接對原始輸入波形進行操作并為每個源生成一個波形。U-net體系結(jié)構(gòu)使用卷積編碼器和解碼器,該解碼器和解碼器基于跨步卷積較大的步幅。波形模型的工作方式與常見的計算機視覺模型相似,因為它們都使用神經(jīng)網(wǎng)絡(luò)在推斷更高級別的模式之前先檢測基本模式。
基于頻譜圖的模型優(yōu)于Wave-U-Net,后者是Demucs之前最先進的基于波形的模型。Demucs建立在Wave-U-Net體系結(jié)構(gòu)的基礎(chǔ)上,具有可調(diào)整的超參數(shù)和較長的短期內(nèi)存,允許網(wǎng)絡(luò)處理整個數(shù)據(jù)序列,而不是單個數(shù)據(jù)點。
這些改進幫助系統(tǒng)解決了一個聲音超過另一個聲音的問題,因為解碼器足夠聰明,可以填充柔和的音符。
人類在MusDB數(shù)據(jù)集上評估Demucs,并將其與其他最新的源分離系統(tǒng)的結(jié)果進行比較。
-
傅立葉變換
+關(guān)注
關(guān)注
3文章
105瀏覽量
32787 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5554瀏覽量
122487
發(fā)布評論請先 登錄
一種新型激光雷達慣性視覺里程計系統(tǒng)介紹

NPU在深度學(xué)習(xí)中的應(yīng)用
pcie在深度學(xué)習(xí)中的應(yīng)用
一種基于深度學(xué)習(xí)的二維拉曼光譜算法

評論