每天,電信、金融和統一通信即服務( UCaaS )等行業都會產生數百萬分鐘的音頻。這些音頻會議記錄可以轉錄,以便為呼叫中心代理提供實時建議,從客戶呼叫記錄中提取見解,或在視頻會議中生成實時字幕。
圖 1 。人工智能在工業中的應用
自動語音識別使您能夠將語音轉錄成文本。生成高質量的文字記錄是一項挑戰,因為這些技能需要理解特定于行業的術語、數百到數千分鐘特定于領域的培訓音頻以及實時運行的管道。 NVIDIA Riva 語音識別是一項技術,可為跨行業的幾個常見用例提供世界級的實時準確度。
在這篇文章中,我們討論 Riva 語音識別。后續文章將討論如何定制語音識別模型,并將其作為優化技能進行部署:
Customizing Speech Recognition Models to Your Domain Using TAO Toolkit
Deploying Speech Recognition Models to Production Using Riva
Riva 語音識別
Riva 是 GPU 加速的 AI 語音 SDK ,用于實時轉錄和虛擬助理等對話 AI 應用程序。 Riva 具有以下優點:
NGC 中經過預訓練的最先進的語音模型
沒有編碼工具,例如TAO Toolkit,用于在自定義數據集上微調這些模型
用于高性能推理的優化語音識別和語音合成管道
Riva 下面的模型是基于數百到數千小時的開放和真實世界數據進行訓練的,這些數據來自電信、金融、醫療保健和 NVIDIA 超級計算機上的教育等行業。數據集樣本還來自嘈雜的環境、自發的語音對話、多種英語口音和不同的采樣率。所有這些屬性都有助于生成噪聲魯棒、高質量的轉錄。
Riva 語音識別技能在各種真實世界的用例數據集上進行評估,包括視頻會議、聯絡中心、播客和技術視頻。您可以在云中、數據中心和邊緣部署這些技能。
Riva 語音識別管道在保持準確性的同時,為新的最先進的體系結構提供支持。圖 2 顯示了在過去 3 年中,通過新的模型體系結構、訓練方法以及最新的基于 TensorRT 和 GPU 的優化,語音準確性的提高。
圖 2 。 Riva ASR 精度改進
使用 Riva ,您可以在流式或批處理模式下以實時延遲快速部署和擴展到數百和數千個并發流。
關于作者
About Sirisha Rella
Sirisha Rella 是 NVIDIA 的技術產品營銷經理,專注于計算機視覺、語音和基于語言的深度學習應用。 Sirisha 獲得了密蘇里大學堪薩斯城分校的計算機科學碩士學位,是國家科學基金會大學習中心的研究生助理。
About Tanay Varshney
Tanay Varshney 是 NVIDIA 的一名深入學習的技術營銷工程師,負責廣泛的 DL 軟件產品。他擁有紐約大學計算機科學碩士學位,專注于計算機視覺、數據可視化和城市分析的橫斷面。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5315瀏覽量
106504 -
語音識別
+關注
關注
39文章
1782瀏覽量
114275
發布評論請先 登錄
網絡語音控制器的原理與應用
TTS語音播報模塊簡介
聯發科與NVIDIA合作 為NVIDIA 個人AI超級計算機設計NVIDIA GB10超級芯片
HarmonyOS NEXT 應用開發練習:AI智能語音播報
NVIDIA推出全新生成式AI模型Fugatto
語音識別技術在醫療領域的應用
語音識別與自然語言處理的關系
ASR語音識別技術應用
基于Arm Neoverse N2實現自動語音識別技術

NVIDIA文本嵌入模型NV-Embed的精度基準

評論