多說話人語音融合任務是 TTS 語音合成當中的一個子任務,它是指將兩個或者多個說話人的聲音進行融合,合成出新的語音的過程,而不需要做任何進一步的微調。多說話人語音融合可以通過插值的方式代替預訓練模型中原始說話人的語音。說話人語音融合技術可用于在語音合成系統(tǒng)中對語音進行個性化處理和生成具有特定語音特征的語音。同時允許開發(fā)者創(chuàng)建無限數量的說話人語音,合成出多樣性的語音,可以豐富用于訓練自動語音識別(ASR)和語音合成(TTS)模型的語音數據集,用于模型的訓練,進而實現不同的多方言或多情感的語音 AI 的應用。
NVIDIA NeMo 是一個用于構建先進的對話式 AI 模型的開源工具庫,它內置集成了自動語音識別(ASR)、自然語言處理(NLP)和語音合成(TTS)的模型及方法。NeMo 可以快速加載先進的預訓練模型 “開箱即用”,使用模型的配置文件 “化繁為簡”,進而快速完成包括多說話人語音合成在內的各類對話式 AI 子任務。
本次網絡研討會主要是開發(fā)人員 NLP 和語音人工智能發(fā)展的需求。
多說話人語音融合
NVIDIA NeMo 代碼解析

11 月 24 日 20:00 - 21:30
演講主題
-
多說話人語音融合的任務介紹
-
多說話人語音融合的任務的模型
-
多說話人語音嵌入的提取與合并
-
使用 NeMo 結合模型進行推理
演講嘉賓

李奕澎 | NVIDIA 企業(yè)開發(fā)者社區(qū)經理
擁有多年數據分析建模、人工智能自然語言處理開發(fā)經驗。在自動語音識別、自然語言處理、語音合成等對話式 AI 技術領域有豐富的實戰(zhàn)經驗與見解。曾開發(fā)法律、金融、保險文檔中基于實體抽取的智能問答系統(tǒng),曾開發(fā)基于 NLP 知識抽取,KG 知識圖譜的建立的科研文檔智能檢索系統(tǒng)。
參與方式

掃描上方二維碼即刻報名
相關資料

了解 NVIDIA NeMo 的更多信息
原文標題:在線研討會預告 | 多說話人語音融合——NVIDIA NeMo 代碼解析
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3920瀏覽量
93107
原文標題:在線研討會預告 | 多說話人語音融合——NVIDIA NeMo 代碼解析
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
2025年簡儀科技全國巡回研討會預告

e絡盟與 Analog Devices 共同舉辦物聯網及醫(yī)療創(chuàng)新在線研討會

在線研討會 | @3/11 NOVOSENSE 驅動 × 磁感測 創(chuàng)新應用與技術解析

評論