UtterIdNet是一種新型的具有短語音片段識(shí)別能力的深度神經(jīng)網(wǎng)絡(luò)。該模型的靈感來自于兩個(gè)成功且非常流行的深度神經(jīng)網(wǎng)絡(luò)架構(gòu):ResNet和DeepID3。據(jù)該模型背后的研究人員稱,該模型采用了一種新的體系結(jié)構(gòu),通過在短語音片段中有效地增加信息的使用,使其適合于短片段說話人的識(shí)別。
他們?cè)赩oxCeleb數(shù)據(jù)集上對(duì)UtterIdNet進(jìn)行了訓(xùn)練和測(cè)試,這是說話人識(shí)別的最新基準(zhǔn),并證明UtterIdNet在短片段上的表現(xiàn)優(yōu)于最先進(jìn)的技術(shù)。對(duì)不同分段持續(xù)時(shí)間的評(píng)估顯示,短分段的性能一致且穩(wěn)定,對(duì)于2秒、1秒、特別是微秒的分段,與之前的模型相比有顯著改進(jìn)。
隨著智能虛擬助手的不斷發(fā)展,它們對(duì)增強(qiáng)語音識(shí)別算法的要求也越來越高。與傳統(tǒng)的先進(jìn)模型相比,該模型顯示了更好的結(jié)果。雖然在完整的語音片段中表現(xiàn)出了微弱的優(yōu)勢(shì),這也是研究人員打算在未來的工作中進(jìn)行研究的,但是UtterIdNet在增強(qiáng)短片段語音識(shí)別方面有很大的潛力。
-
語音識(shí)別
+關(guān)注
關(guān)注
39文章
1773瀏覽量
113863 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5554瀏覽量
122432
原文標(biāo)題:機(jī)器有了綜合感官?新研究結(jié)合視覺和聽覺進(jìn)行情感預(yù)測(cè) | 一周AI最火論文
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
DAC8760接上了24V以后,芯片表面就有啪的一聲,是哪里出了問題?
AIC33在經(jīng)過數(shù)模轉(zhuǎn)換后接了一個(gè)功放,在對(duì)AIC33進(jìn)行初始化完成后,會(huì)聽到“啪”的一聲,怎么解決?
GPU深度學(xué)習(xí)應(yīng)用案例
TAS5719插入耳機(jī)時(shí)會(huì)有一聲pop noise,怎么解決?
在AC off時(shí), DRV632輸出耳機(jī)會(huì)有爆音一聲,如何改善?
TPA3116喇叭接入后能聽到周期大約1s的非常小的一聲bo,為什么?
tas5630B無繼電器的情況下,會(huì)砰兩聲是什么原因,怎么解決?
TAS5630B功放上電的時(shí)候都會(huì)有砰的一聲,為什么?怎么處理?
TAS5630B功放上電打開繼電器,砰的一聲有沒有什么辦法解決?
使用TPA3113作為揚(yáng)聲器放大,開機(jī)時(shí)SD信號(hào)為高電平的瞬間揚(yáng)聲器會(huì)有彭一聲響,為什么?
深度識(shí)別算法包括哪些內(nèi)容
深度識(shí)別人臉識(shí)別有什么重要作用嗎
基于Python的深度學(xué)習(xí)人臉識(shí)別方法
基于深度學(xué)習(xí)的鳥類聲音識(shí)別系統(tǒng)
云知聲說話人識(shí)別引擎獲得HUAWEI COMPATIBLE證書及認(rèn)證徽標(biāo)的使用權(quán)

評(píng)論