女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用GAN生成音樂(lè)成功了!GANSynth是一種快速生成高保真音頻的新方法

DPVg_AI_era ? 來(lái)源:lp ? 2019-03-02 09:26 ? 次閱讀

谷歌大腦團(tuán)隊(duì)最新ICLR論文提出用GAN生成高保真音樂(lè)的新方法,速度比以前的標(biāo)準(zhǔn)WaveNet快5萬(wàn)倍,且音樂(lè)質(zhì)量更好!

GAN 在生成高質(zhì)量圖像方面是當(dāng)之無(wú)愧的最先進(jìn)的方法。然而,將 GAN 擴(kuò)展到如聲音這類的序列數(shù)據(jù)任務(wù),盡管有許多嘗試,仍困難重重。

近日,谷歌大腦團(tuán)隊(duì) Jesse Engel 等人用GAN生成音樂(lè)的新研究引起大量關(guān)注。Jesse Engel 在推特上興奮地宣布:“用GAN生成音樂(lè)成功了!GANSynth是一種快速生成高保真音頻的新方法。”

他們的論文GANSynth: Adversarial Neural Audio Synthesis已被 ICLR 2019接收。

谷歌 AI 總統(tǒng)帥 Jeff Dean 也被這個(gè)研究吸引,大加贊賞,并建議大家試聽(tīng)一下更多樣本音樂(lè)。

GANSynth 生成音樂(lè)有多強(qiáng)呢?Jesse Engel 用一句話解釋:“我們證明了,我們可以比標(biāo)準(zhǔn)的 WaveNet 快 5 萬(wàn)倍地生成樂(lè)器音頻,并且具有更高的質(zhì)量(無(wú)論是定量測(cè)試還是聽(tīng)眾測(cè)試),并且可以獨(dú)立控制音高和音色,使得樂(lè)器之間的插入更加平滑。”

巴赫前奏曲的示例

他說(shuō):“與之前的音頻模型 (如 WaveNet 自動(dòng)編碼器) 不同,我們學(xué)習(xí)整個(gè)音頻剪輯的單個(gè)潛在向量,并添加音調(diào)調(diào)節(jié)向量。這可以產(chǎn)生更平滑的插值 (interpolations),讓每個(gè)點(diǎn)聽(tīng)起來(lái)都像是一個(gè)有效的樣本。”

他們發(fā)布了代碼,享受用 colab notebook 制作自己的音樂(lè)的樂(lè)趣吧!

更多音樂(lè)樣本:

https://storage.googleapis.com/magentadata/papers/gansynth/index.html

Colab:

https://colab.research.google.com/notebooks/magenta/gansynth/gansynth_demo.ipynb

論文: https://openreview.net/forum?id=H1xQVn09FX

Code:

https://github.com/tensorflow/magenta/tree/master/magenta/models/gansynth

Blog: http://magenta.tensorflow.org/gansynth

接下來(lái),我們將詳細(xì)介紹GANSynth 生成音樂(lè)的運(yùn)作原理.

為什么要用 GAN 生成音頻?

GAN 是用于生成高質(zhì)量圖像的最先進(jìn)的方法。然而,研究人員一直在努力將其應(yīng)用到更加序列性的數(shù)據(jù),如音頻和音樂(lè)。

在序列數(shù)據(jù)中,自回歸 (AR) 模型占主導(dǎo)地位,如 wavenet 和 Transformers,它們的運(yùn)作方式是一次預(yù)測(cè)單個(gè)樣本。雖然 AR 模型的這一特性有助于它們的成功,但這也意味著采樣是連續(xù)的,而且非常緩慢,實(shí)時(shí)生成需要 distillation 或?qū)S脙?nèi)核等技術(shù)。

GANynth 不是按序列生成音頻,而是并行生成整個(gè)序列,在現(xiàn)代 GPU 上合成音頻的速度比實(shí)時(shí)更快,比標(biāo)準(zhǔn) WaveNet 快約 50000 倍。

與原始論文中使用時(shí)間分布潛碼的 WaveNet 自動(dòng)編碼器不同,GANynth 從單個(gè)潛在向量生成整個(gè)音頻片段,從而更輕松地分開(kāi)音高和音色等全局特征。利用樂(lè)器音符的 NSynth 數(shù)據(jù)集,我們可以獨(dú)立控制音高和音色。

用 GAN 生成音樂(lè)的原理

GANynth 使用一個(gè) Progressive GAN 架構(gòu),通過(guò)卷積將樣本從單個(gè)向量逐步上采用到完整的聲音。與之前的工作類似,我們發(fā)現(xiàn)直接生成相干波形 (coherent waveforms) 很困難,因?yàn)樯喜蓸泳矸e與高周期信號(hào)的相位對(duì)齊相悖。如下圖所示:

上圖中,紅黃相間的曲線是一個(gè)周期信號(hào),每個(gè)周期波形的開(kāi)始處都有一個(gè)黑點(diǎn)。如果我們嘗試通過(guò)將其切割成周期性的幀 (黑色虛線) 來(lái)對(duì)信號(hào)進(jìn)行建模,就像對(duì) GAN 中的上采樣卷積和短時(shí)距傅里葉變換 (STFT) 所做的那樣,幀的開(kāi)始 (虛線) 和波形的開(kāi)始 (點(diǎn)) 之間的距離隨時(shí)間變化而改變 (黑色實(shí)線)。

對(duì)于跨步卷積,這意味著卷積需要學(xué)習(xí)給定濾波器的所有相位排列,這是非常低效的。這種差異 (黑線) 被稱為相位 (phase),它隨著時(shí)間的推移而進(jìn)行,因?yàn)椴ê蛶胁煌闹芷凇?/p>

正如上面的示例所展示的,相位是一個(gè)環(huán)形量 (黃色條,mod 2π),但是如果我們展開(kāi)它 (橙色條), 它每幀減少一個(gè)恒定量 (紅色條)。我們稱之為瞬時(shí)頻率 (IF),因?yàn)轭l率的定義是相位隨時(shí)間的變化。STFT 將一幀信號(hào)與許多不同頻率進(jìn)行比較,得到如下圖所示的斑點(diǎn)相位模式。相比之下,當(dāng)我們提取瞬時(shí)頻率時(shí),我們看到的是一致的粗體線條,反映了潛在聲音的相干周期。

結(jié)果

在 GANynth ICLR 的論文中,我們用一系列頻譜表示來(lái)訓(xùn)練 GAN,發(fā)現(xiàn)對(duì)于像音樂(lè)這樣的高周期性聲音,為相位分量生成瞬時(shí)頻率 (IF) 的 GAN 優(yōu)于其他表示和其他強(qiáng)大基線,包括生成波形的 GAN 和無(wú)條件 WaveNets。

我們還發(fā)現(xiàn),progressive training (P) 和提高 STFT (H) 的頻率分辨率有助于分離緊密間隔的諧波,從而提高性能。下面的圖表顯示了用戶聽(tīng)力測(cè)試的結(jié)果,測(cè)試中用戶需要收聽(tīng)來(lái)自兩種不同方法的音頻示例,并被提問(wèn)他們更喜歡哪一種:

除了本文中提到的多種定量測(cè)量方法外,我們還可以定性地看到產(chǎn)生瞬時(shí)頻率 (IF-GAN) 的 GAN 也會(huì)產(chǎn)生更多的相干波形。

下圖的第一行顯示了所生成的波形,對(duì)音符的基本周期取模。需要注意的是,真實(shí)數(shù)據(jù)完全與它自身重疊,因?yàn)椴ㄐ问欠浅V芷谛缘?。然而?WaveGAN 和 PhaseGAN 有許多相位不規(guī)則性,形成了模糊的線條網(wǎng)。IF-GAN 更為連貫,在周期和周期之間只有很小的變化。

在下面的彩虹圖 (CQT,顏色代表瞬時(shí)頻率) 中,真實(shí)數(shù)據(jù)和 IF 模型具有相干波形,使得每個(gè)諧波的顏色具有很強(qiáng)的一致性,而 PhaseGAN 由于相位不連續(xù)有許多斑點(diǎn), WaveGAN 則非常不規(guī)則。

未來(lái)工作

這項(xiàng)工作是使用 GAN 生成高保真音頻的初步嘗試,但仍存在許多有趣的問(wèn)題。雖然上述方法在處理音樂(lè)信號(hào)方面效果不錯(cuò),但在語(yǔ)音合成方面仍產(chǎn)生了一些明顯的缺陷。

最近的一些相關(guān)工作就是在此基礎(chǔ)上,探索從生成的頻譜圖中恢復(fù)相位的方法,同時(shí)減少偽影。其他有前途的方向包括使用 multi-scale GAN、處理可變長(zhǎng)度輸出,以及用靈活的可微分合成器替換上采樣卷積生成器。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6223

    瀏覽量

    107523
  • 音頻
    +關(guān)注

    關(guān)注

    29

    文章

    3022

    瀏覽量

    83039
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    2176

    瀏覽量

    76152

原文標(biāo)題:GAN跨界合成高保真音樂(lè),Jeff Dean聽(tīng)了都陶醉

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一種標(biāo)定陀螺儀的新方法

    一種標(biāo)定陀螺儀的新方法
    發(fā)表于 08-17 12:17

    一種在金上生成硫醇封端的SAM的新方法

    一種在金上生成硫醇封端的SAM的新方法 - 應(yīng)用簡(jiǎn)報(bào)
    發(fā)表于 10-30 11:05

    介紹一種智能手機(jī)“音樂(lè)播放器”高保真還原的解決方案

    介紹一種智能手機(jī)“音樂(lè)播放器”高保真還原的解決方案
    發(fā)表于 06-02 07:04

    如何使用MangaGAN新方法生成久保帶人Style的漫畫(huà)形象?

    如何使用MangaGAN新方法生成久保帶人Style的漫畫(huà)形象?
    發(fā)表于 09-27 06:00

    一種級(jí)數(shù)混合運(yùn)算產(chǎn)生SPWM波新方法

    一種級(jí)數(shù)混合運(yùn)算產(chǎn)生SPWM波新方法_耿衛(wèi)東
    發(fā)表于 01-07 18:39 ?0次下載

    一種求解動(dòng)態(tài)及不確定性優(yōu)化問(wèn)題的新方法

    一種求解動(dòng)態(tài)及不確定性優(yōu)化問(wèn)題的新方法_劉曉
    發(fā)表于 01-07 18:56 ?0次下載

    一種設(shè)計(jì)同步時(shí)序邏輯電路的新方法

    一種設(shè)計(jì)同步時(shí)序邏輯電路的新方法
    發(fā)表于 02-07 15:05 ?29次下載

    PC機(jī)與單片機(jī)串行通信的一種新方法

    PC機(jī)與單片機(jī)串行通信的一種新方法
    發(fā)表于 09-04 14:20 ?4次下載
    PC機(jī)與單片機(jī)串行通信的<b class='flag-5'>一種</b><b class='flag-5'>新方法</b>

    圖像生成領(lǐng)域的個(gè)巨大進(jìn)展:SAGAN

    近年來(lái),生成圖像建模領(lǐng)域出現(xiàn)不少成果,其中最前沿的是GAN,它能直接從數(shù)據(jù)中學(xué)習(xí),生成高保真、多樣化的圖像。雖然
    的頭像 發(fā)表于 10-08 09:11 ?1.3w次閱讀

    一種基于對(duì)抗生成模型的新方法,名曰“CosmoGAN”

    是NERSC項(xiàng)新研究的主要作者,該研究描述的新方法就是基于二次模擬,由伯克利實(shí)驗(yàn)室、谷歌研究院和夸祖魯-納塔爾大學(xué)合作開(kāi)發(fā)。
    的頭像 發(fā)表于 06-23 10:05 ?2741次閱讀

    一種復(fù)制和粘貼URL的新方法

    它也存在于瀏覽器中,Microsoft Edge也不例外。但是,雷蒙德(Redmond)的用戶啟用了一種復(fù)制和粘貼URL的新方法,該方法有些簡(jiǎn)單,但并非所有用戶都知道如何利用它。這是最合乎邏輯的,因?yàn)樵跒g覽器中處理地址的
    的頭像 發(fā)表于 12-21 16:55 ?4219次閱讀

    一種基于改進(jìn)的DCGAN生成SAR圖像的方法

    針對(duì)SAR圖像識(shí)別軟件,通過(guò)改進(jìn) DCGAN模型單生成器與單判別器對(duì)抗的結(jié)構(gòu),采用多生成器與單判別器進(jìn)行對(duì)抗,設(shè)計(jì)控制各生成生成圖像平均
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一種</b>基于改進(jìn)的DCGAN<b class='flag-5'>生成</b>SAR圖像的<b class='flag-5'>方法</b>

    一種Keil MDK生成BIN文件的簡(jiǎn)易方法

    一種Keil MDK生成BIN文件的簡(jiǎn)易方法。
    發(fā)表于 01-13 10:18 ?2次下載

    一種產(chǎn)生激光脈沖的新方法

    英國(guó)和韓國(guó)的科學(xué)家提出了一種產(chǎn)生激光脈沖的新方法,其功率是現(xiàn)有激光脈沖的1000多倍。
    的頭像 發(fā)表于 11-20 16:56 ?801次閱讀
    <b class='flag-5'>一種</b>產(chǎn)生激光脈沖的<b class='flag-5'>新方法</b>

    一種降低VIO/VSLAM系統(tǒng)漂移的新方法

    本文提出了一種新方法,通過(guò)使用點(diǎn)到平面匹配將VIO/VSLAM系統(tǒng)生成的稀疏3D點(diǎn)云與數(shù)字孿生體進(jìn)行對(duì)齊,從而實(shí)現(xiàn)精確且全球致的定位,無(wú)需視覺(jué)數(shù)據(jù)關(guān)聯(lián)。所提
    的頭像 發(fā)表于 12-13 11:18 ?592次閱讀
    <b class='flag-5'>一種</b>降低VIO/VSLAM系統(tǒng)漂移的<b class='flag-5'>新方法</b>