加州大學伯克利分校的研究人員已經開發出一種能夠檢測“無聲語音”的AI模型。該模型基于數字語音預測單詞并生成合成語音。肌電圖(EMG)的電極位于臉部和喉嚨,用于檢測無聲語音。
研究人員斷言,該模型可以為無法發出可聽語音的人們啟用許多應用程序,并可以幫助AI工具和其他響應語音命令的設備進行語音檢測。
該小組指出,以數字方式為無聲語音發聲具有廣泛的應用。例如,它可以生成類似于藍牙耳機的工具,該工具可以使個人繼續通話,而不會打擾周圍的人。當環境聲音太大而無法捕獲可聽見的語音或必須保持安靜時,這種設備將非常有用。
口頭閱讀AI是可以從靜音語音中捕獲單詞的AI的另一個示例。它可以為監視設備供電,并支持聾人的用例。
研究人員使用了一種方法,其中將所需語句的音頻輸出目標從發聲錄音轉換為無聲錄音。然后,使用WaveNet解碼器生成音頻語音預測。
通過比較發聲的EMG數據和基線訓練的數據,發現發聲的EMG方法在從書中轉錄句子時,單詞錯誤率降低了64%至4%,而基線降低了95%。研究人員開源了約20小時的面部EMG數據集,以鼓勵對該領域進行進一步研究。
在其他工作中,中國的研究人員建立了諷刺檢測模型,該模型在多模式Twitter數據集上提供SOTA性能。Masakhane開放源代碼非洲語言翻譯項目的成員已發布了 有關低資源機器翻譯的 案例研究。
責任編輯:lq
-
解碼器
+關注
關注
9文章
1164瀏覽量
41741 -
藍牙耳機
+關注
關注
20文章
5674瀏覽量
61299 -
AI
+關注
關注
88文章
34471瀏覽量
275910
發布評論請先 登錄
研究人員開發出基于NVIDIA技術的AI模型用于檢測瘧疾
《AI Agent 應用與項目實戰》----- 學習如何開發視頻應用
NVIDIA助力初創公司BioTuring發布新型AI模型
Qwen大模型助力開發低成本AI推理方案
一種高靈敏的化學檢測系統

AI模型部署邊緣設備的奇妙之旅:目標檢測模型
研究人員利用激光束開創量子計算新局面

AMD發布10億參數開源AI模型OLMo
BitEnergy AI公司開發出一種新AI處理方法
《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得
研究人員提出一種電磁微鏡驅動系統
基于一種AI輔助可穿戴微流控比色傳感器系統

評論