聲紋識別技術(shù)在身份認證方面的應(yīng)用分析
虛擬引擎
時變問題
人的整個發(fā)聲系統(tǒng)隨著時間的推移會產(chǎn)生一定的變化,這些變化直接導(dǎo)致了其語音信息中的聲紋信息的變化,如果算法或系統(tǒng)不考慮這些變化,那么一段時間后,系統(tǒng)的識別性能將有所下降。為此我們錄制了長達4年的100人的時變語音庫,基于此語音庫分析,我們找到了和時變相關(guān)的一些特征信息和規(guī)律,并試用其對MFCC和PLP特征的提取過程進行了修改。另外在工程方面,以聲密保系為例,其在架構(gòu)設(shè)計中就考慮到了模型的在線更新問題,并設(shè)計了專門的語音篩選算法,系統(tǒng)會定期的挑選用戶符合條件的最新語音進行模型的重新訓(xùn)練。
噪音問題
正如軟件工程中所提的沒有銀彈的概念一樣,任何技術(shù)都有一定的局限性,不可能無限制地應(yīng)用于任何場景,聲紋技術(shù)在大噪音環(huán)境下并不適用。針對此我們開發(fā)了一套語音質(zhì)量檢測的庫來對環(huán)境噪音和語音的信噪比進行檢測,將不符合條件的語音排除在系統(tǒng)之外并對用戶進行提示。此套噪音檢測系統(tǒng)采用了傳統(tǒng)的基于能量、包絡(luò)、自相關(guān)系數(shù)等特征的檢測算法和RNN/LSTM相結(jié)合方法,能準確的檢測出96%以上不符合條件的場景。
防錄音重放攻擊措施
在解決這些傳統(tǒng)問題的同時,為了保證用聲紋進行遠程身份認證的安全性,我們還提出了一系列防攻擊措施,包括動態(tài)密碼語音、用戶自定義密碼、多特征活體檢測和錄音重放等。由于篇幅有限,下面詳細介紹我們在錄音重放上的工作。
錄音重放是一種常見的聲紋特征盜取手段,由于采用動態(tài)密碼的方式,很難將一個人的各種發(fā)音組合全部錄制下來。但我們還是假設(shè)如果把這個人所有的文本發(fā)音(在聲密保系統(tǒng)中為0~9的數(shù)字發(fā)音)全部錄下來,然后根據(jù)系統(tǒng)提示的數(shù)字密碼進行拼接重放,那么還是同一個人的聲音,是否能夠通過聲紋識別系統(tǒng)驗證呢?
我們先分析一個典型的錄音重放過程:
正常語音信號:y(t)=x(t)*a(t)
錄音重放語音信號:y’(t)=x(t)*a’(t) *d’(t)*a(t)
圖5中錄音ADCs(模數(shù)轉(zhuǎn)換)和重放DACs(數(shù)模轉(zhuǎn)換)是對語音信號的兩次傳輸,均會對原始信號產(chǎn)生影響,且ADCs和DACs是非連續(xù)可逆的,除了ADCs和DACs外,傳輸過程還包括噪音、混響等因素,錄音重放會造成信道失配和信號強度衰減等現(xiàn)象。
圖5 典型的錄音重放過程
圖6給出了一段真實語音和其錄音重放后語音的時頻分析,可以看出在這種情況下真實語音和錄音重放語音很難被區(qū)分,錄音重放可以說是最容易實施和最難被檢測的假體攻擊方式。
圖6 一段真語音和錄音重放語音的時頻分析
2017年的Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge中,首次將錄音重放檢測納入到說話人識別的防闖入比賽中,一個理想的錄音重放檢測系統(tǒng)應(yīng)該在已知和未知的條件下都很魯棒,包含與訓(xùn)練數(shù)據(jù)不同的說話人、不同的錄音重放內(nèi)容和不同的錄音重放設(shè)備。ASVspoof針對錄音重放檢測進行的比賽中,全球近100個團隊參加,最終提交了49個,我司的結(jié)果排在第5。相關(guān)的聲紋確認防錄音論文發(fā)表在Interspeech上。
《A Study on Replay Attack and Anti-Spoofing for Automatic Speaker Verification》論文主要分兩部分:第一部分分析了不同的說話人、文本和設(shè)備對錄音重放檢測性能的影響;第二部分給出了有效的錄音重放檢測算法實現(xiàn)。
論文用F-ratio來分析不同因素對重放檢測性能的影響。F-ratio是一個簡單的頻域加權(quán)方法,頻帶的權(quán)重可以由其對任務(wù)的判別能力決定。假設(shè)在分析語音譜時采用的濾波器個數(shù)為M,第i個濾波器的F-ratio可以定義為:
Cg表示真實語音,Cr表示重放語音。xi表示第i個濾波器語音幀x的值,uig和uir分別是濾波器內(nèi)真實語音和重放語音所有幀的均值,Ng和Nr分別是兩類語音的語音幀數(shù)。最后用M個濾波器的F-ratio值組[F1,F(xiàn)2,…,F(xiàn)M]來分析真實語音和重放語音在不同頻帶上的區(qū)分性。
在ASVspoof中,開發(fā)集和測試集中含有比訓(xùn)練集種類更多的錄音重放設(shè)備。在訓(xùn)練集中利用少量設(shè)備的錄音重放語音進行模型訓(xùn)練非常容易導(dǎo)致過擬合,弱化了提取的特征和訓(xùn)練的模型的概化能力。為了提高概化能力,降低這種變化對重放檢測的影響,論文采用了頻率彎折的方法,如圖7所示,Mel方法增強了特征在低頻段的區(qū)分能力,IMel方法增強了特征在高頻段的區(qū)分能力。
圖7 三種頻率彎折曲線
圖8給出了在Mel和IMel兩種頻率彎折方法下,不同的說話人、文本內(nèi)容、和錄音重放設(shè)備在濾波器組上的F-ratio值,從(c)列圖中可以看出用Mel方法,不同的錄音重放設(shè)備對濾波器組的F-ratio值影響很明顯;但是IMel方法大大降低了設(shè)備間差異對F-ratio的影響,這對后面建立概化能力更強的模型具有非常重要的意義。
圖8 Mel和IMel方法在不同的說話人、文本和設(shè)備情況下對F-ratio的影響
在錄音重放檢測部分,論文使用(MFCC,LPCC和IMFCC)三種特征在訓(xùn)練集上建立了基于GMM、ivector/SVM和DNN的重放檢測系統(tǒng),并在開發(fā)集中進行了測試。從下面結(jié)果可以看出IMFCC特征是最有效的,最簡單的GMM模型取得了最好的效果,DNN模型雖然在表中也取得了不錯的效果,但是存在不穩(wěn)定的問題,不同的初始化將導(dǎo)致不同的結(jié)果,有的差異很大。
其實在日常生活中用手機進行錄音重放是最方便的。相比于多樣性的錄音重放設(shè)備,手機等移動設(shè)備上的錄音重放檢測要簡單的多,我們曾經(jīng)對60種不同型號的手機進行了接近十萬條的錄音重放檢測,結(jié)果重放的檢出率基本為100%。
總結(jié)
聲紋作為生物特征中的行為特征,配合語音識別技術(shù),通過互動方式在遠程身份認證“用自己來證明自己”方面有其他生物特征難以替代的優(yōu)勢。當然,就像前面提到的任何技術(shù)都有一定的局限性,不可能無限制的應(yīng)用于任何場景。只有通過結(jié)合聲紋和其他生物特征組成多因子認證手段,才能更好地保證遠程身份認證安全。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
聲紋識別技術(shù)在身份認證方面的應(yīng)用分析下載
相關(guān)電子資料下載
- 曙光一體化算力服務(wù)平臺為聲紋識別技術(shù)提供大規(guī)模算力算法服務(wù) 860
- 聲紋識別技術(shù)與智慧城市建設(shè)同步發(fā)展 2561
- 人工智能(AI)推動聲紋識別技術(shù)應(yīng)用落地 1533
- 六大場景 看懂聲紋識別技術(shù)怎樣“抗疫防疫” 1668
- 聲紋識別技術(shù)能否不像其他技術(shù)那樣多難 1055
- 聲紋識別技術(shù)研究的方向在哪里 668
- 聲紋識別技術(shù)或?qū)⒊蔀橄乱粋€行業(yè)新風(fēng)口 571
- 君林科技應(yīng)邀做了《聲紋識別技術(shù)及其在電梯聲音監(jiān)控及分析領(lǐng)域的應(yīng)用》主題 3013
- 深度神經(jīng)網(wǎng)絡(luò)算法打造頂尖聲紋識別技術(shù) 3347
- 聲紋識別技術(shù)排名全球前三,快商通憑什么? 7747