國際頂級的語音技術圈會議INTERSPEECH 2020于10月25-30日在中國上海舉辦,本次會議主題為“Cognitive Intelligence for Speech Processing”。思必馳作為國內領先的對話式人工智能平臺公司參加該國際頂會,支持大會在這不平凡的2020年順利舉行,致力推進產學研用的一體化進程。
思必馳-上海交通大學智能人機交互聯合實驗室
10篇論文被INTERSPEECH 2020收錄
INTERSPEECH 2020共接收有效論文總數2100余篇,實際收錄數量為1022篇。其中,思必馳-上海交通大學智能人機交互聯合實驗室10篇論文被正式收錄,涉及說話人識別、語音識別及合成、多模態語音分離、口語語義理解等多方面的技術創新研究。
10篇論文簡要介紹如下:
《用于單通道多說話人語音識別的上下文嵌入表示學習方法》
Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
端到端多說話人語音識別是近年來的熱門話題。本文探討了利用上下文信息來提升多說話人語音識別的性能。我們設計了嵌入表示學習模型來直接從多說話人混合語音中準確地提取上下文嵌入表示,同時進一步提出了兩種高級的訓練策略來改進該新模型,即嵌入表示采樣和兩階段訓練。實驗結果表明,我們的方法在多說話人語音識別上取得了顯著改進,與端到端多說話人語音識別的基線模型相比,本文提出的方法減少了相對25%的詞錯誤率。
圖:基于上下文嵌入表示的多說話人語音識別模型結構
《在雞尾酒會中聆聽、觀察、理解:音頻-視頻-上下文的多模態語音分離》
Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
多個說話人同時說話時,人類可以通過聽混合語音,觀看說話者并理解上下文信息,將注意力集中在感興趣的語音上。我們嘗試使用三種模態(視覺模態、語音模態以及上下文信息模態)來解決與說話者無關的語音分離問題。與以前的應用純音頻/音視頻模態的方法相比,我們設計了特定模型來直接從語音混合中提取所有目標說話人的上下文語言信息,然后將這些提取的上下文知識通過適當的注意力機制進一步合并到基于多模態信息的語音分離體系結構中。實驗表明,在新提出的基于上下文信息的語音分離模型上可以觀察到性能顯著改善。
圖:基于音頻-視頻-上下文的多模態語音分離示意圖
《多模態作用很大: Voxceleb數據集上的性能飛躍》
Multi-modality Matters: A Performance Leap on VoxCeleb
來自不同模態的信息通常相互補償。我們在說話人嵌入特征級別探索了視聽人員驗證系統的不同信息融合策略和損失函數。我們在說話人嵌入特征級別上使用視聽知識的最佳系統在VoxCeleb1的三個公開測試列表上達到了0.585%,0.427%和0.735%的EER,這是該數據集上報告的最好的結果。此外,我們基于VoxCeleb1數據集構建了一個嘈雜的測試集。我們在說話人嵌入特征級別使用數據增廣策略來幫助視聽系統區分噪聲和干凈的嵌入。通過這種數據增廣策略,所提出的視聽人員驗證系統在嘈雜的測試集上取得了更好的效果。
圖:在帶噪測試集上的性能比較
《BERT聯合編碼詞混淆網絡和對話上下文的口語語義理解方法》
Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
口語理解可以將自動語音識別得到的假設轉換為結構化的語義表示,語音識別錯誤會使后續口語理解模塊的性能嚴重下降。為了緩解口語理解不確定性的問題,本文提出一種新穎的基于詞混淆網絡(WCN)和BERT預訓練模型的口語語義理解模型(WCN-BERT SLU),對話上下文中的上一輪系統行為也被用作附加輸入。該模型對WCN和對話上下文進行聯合編碼,在BERT架構中集成了詞混淆網絡的結構信息和語音識別的后驗概率。在口語理解的基準數據集DSTC2上進行的實驗表明,該方法大大優于以前的最佳模型。
圖:與已發表結果在 DSTC2 數據集上的比較
《將部分共享神經網絡應用于基于對抗訓練的說話人驗證領域自適應》
Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
我們使用領域對抗訓練來研究具有不同語言的數據集之間的領域自適應策略。這種架構可以幫助嵌入特征提取器學習域不變特征,同時不會犧牲說話者辨別能力。在SRE16粵語和菲律賓語評估測試集上實現了約25.0%的相對平均等錯誤率(EER)的改進。
《基于雙重對抗領域自適應的泛化重放攻擊檢測》
Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
我們提出了對偶對抗領域自適應的框架,通過使用兩個領域鑒別器分別對欺騙數據和真實數據進行細粒度的對齊,從而提高欺騙檢測的性能。實驗表明:該框架對于通用的重放攻擊檢測更加地魯棒和有效。
《噪聲環境下通過半監督音頻事件檢測模型訓練的語音端點檢測器》
Voice activity detection in the wild via weakly supervised sound event detection
我們提出了兩種弱監督訓練的通用VAD模型,GPV-F和GPV-B。在真實場景的測試中,GPV-F模型比標準VAD模型提升很多,GPV-B模型也獲得和標準VAD模型可比的性能。
《神經同態聲碼器》
Neural Homomorphic Vocoder
本文提出了神經同態聲碼器(NHV),一種基于源-濾波器模型的神經網絡聲碼器框架,能夠通過多分辨率 STFT 損失和對抗損失函數聯合進行優化,計算效率高,可控性和可解釋性好。
《基于雙編碼器多專家模型結構的中英文語種混雜語音識別》
Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
我們研究使用一種嶄新的端到端模型來進行中英文語種混雜語音識別。實驗結果表明,相比于基線的Transformer模型,我們的結構可以取得大幅度的性能提升。
思必馳擁有全鏈路的軟硬一體化端到端語音交互系統能力,近年來不斷加碼源頭技術的持續創新,通過思必馳-上海交通大學智能人機交互聯合實驗室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定制能力、變幀率語音識別解碼技術、說話人識別技術、超高壓縮比神經網絡模型壓縮技術、多模態感知及理解和表達技術等方面,均有顯著突破。圍繞對話式AI能力,思必馳會不斷夯實“全鏈路智能對話”技術以及“高自由度定制”方案能力。未來也會持續加大對基礎源頭技術創新與核心產品能力升級的核心投入,持續提升AI+智能終端、AI+智慧服務的快速規模化能力,加速向更多行業場景縱深賦能。
思必馳xiaochi獲2020 AESR
“口音種類識別“冠軍和“口音英語語音識別”亞軍
2020 AESR,即“INTERSPEECH 2020口音英語語音識別挑戰賽(Interspeech2020 Accented English Speech Recognition)”,向參賽者開放八種口音英文數據,設置了“Track1-口音種類識別”和“Track2-口音英語語音識別”兩個賽道。由思必馳組建的“xiaochi”隊伍表現優異,分別獲得“口音種類識別”第一名(全球共30個隊伍參賽),和“口音英語語音識別”第二名(全球42個隊伍參賽)。
在“Track1-口音種類識別”技術挑戰賽中,參賽隊伍需要使用官方提供的各種口音英文的訓練數據,訓練語種分類模型。xiaochi隊伍的準確率高出第二名11個百分點,最終摘得冠軍。
數據策略上,xiaochi對8種口音訓練音頻進行變語速數據增強,利用kaldi工具模擬噪聲和遠場,使用8種口音訓練數據+librispeech數據訓練TTS合成器,并生成8種口音訓練音頻,最后對測試音頻采用sox變語速后與原始音頻拼接。模型訓練時,采用了多機多卡的并行訓練策略,有效降低了模型迭代和實驗速度。最終我們采用深層的TDNN模型,結合AAM loss等進行優化,來訓練8種口音的8分類模型。
經過多個不同策略組合的實驗測試,最終發現,“利用PPG等特征,結合基于tts的數據生成,多嵌入多層聯合優化”等方法,能夠最高效快速識別不同口音種類。這也為未來業界進行多語種混合識別提供了很好的參考策略。
思必馳語音應用負責人薛少飛
參與INTERSPEECH工業論壇并在線分享
今年INTERSPEECH 2020首次推出虛擬展會,以直播的方式舉辦在線論壇。思必馳高級技術總監、語音應用技術負責人薛少飛,10月29日(今晚)將在線分享思必馳在語音識別、語音喚醒、音頻檢測等語音交互關鍵技術方面的新進展。
責任編輯:xj
原文標題:【會員風采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄
文章出處:【微信公眾號:深圳市汽車電子行業協會】歡迎添加關注!文章轉載請注明出處。
-
人機交互
+關注
關注
12文章
1238瀏覽量
56217 -
語音識別
+關注
關注
39文章
1774瀏覽量
113931 -
思必馳
+關注
關注
4文章
324瀏覽量
15102
原文標題:【會員風采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄
文章出處:【微信號:qidianxiehui,微信公眾號:深圳市汽車電子行業協會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
思必馳與上海交大聯合實驗室12篇論文被ICASSP 2025收錄

評論