便攜式產(chǎn)品中語音命令的軟件算法
允許始終在線、始終收聽的語音命令產(chǎn)品運行的算法必然是復(fù)雜的。他們必須24/7/365對喚醒詞保持警惕;可靠地識別喚醒詞;盡可能將用戶的聲音與周圍的噪音隔離開來;并產(chǎn)生足夠干凈的信號,供語音識別引擎使用。有許多不同的算法在起作用,所有這些算法都必須進行調(diào)整以適應(yīng)產(chǎn)品的設(shè)計和應(yīng)用。便攜式產(chǎn)品的設(shè)計和功耗要求可能會影響這些算法的功能。
基本算法結(jié)構(gòu)
下面是語音命令算法包的基本組件。在這里,它們按從麥克風(fēng)端到最終信號輸出的順序呈現(xiàn)。
聲音探測器:通常,來自單個麥克風(fēng)的信號使用比較器進行監(jiān)控。當信號電平超過特定閾值時(例如當用戶說出喚醒詞時),比較器會發(fā)送命令以打開系統(tǒng)其余部分的電源。此功能在家用產(chǎn)品中可能不是必需的,在家用產(chǎn)品中,功耗不是問題,并且可以隨時為更多的系統(tǒng)供電,但它對便攜式產(chǎn)品至關(guān)重要,因為它允許關(guān)閉更多組件以節(jié)省電源。此功能還必須快速發(fā)生,以便系統(tǒng)能夠接收喚醒字。例如,上面引用的Vesper VM1010,麥克風(fēng)在50 μs內(nèi)喚醒,遠遠小于在任何關(guān)鍵字中說出第一個字母所需的時間。
降噪和濾波:為了提高聲音檢測功能,它有助于過濾掉聲音,例如來自汽車,HVAC系統(tǒng)和風(fēng)的噪音,這些聲音顯然不是人類的聲音,因此語音識別系統(tǒng)可以安全地忽略。通過麥克風(fēng)的選擇、產(chǎn)品的物理設(shè)計或音頻處理,產(chǎn)品可以(如上面引用的 Vesper VM1010 麥克風(fēng))過濾掉人類人聲范圍(大約跨越 100 Hz 到 6 kHz)之外的聲音。音頻處理還可以消除重復(fù)的聲音,例如冰箱噪音。但是,這些功能可能需要打開處理器電源,這可能會影響便攜式產(chǎn)品的電池壽命。
喚醒詞檢測:一旦系統(tǒng)檢測到聲音并通電,它必須錄制傳入的音頻并將其與喚醒詞的存儲數(shù)字文件(例如亞馬遜Echo的“Alexa”)進行比較。如果傳入音頻的波形與存儲的文件足夠接近,則設(shè)備將接受語音命令。
到達方向檢測:為了使麥克風(fēng)陣列專注于用戶的聲音,它必須首先確定用戶相對于產(chǎn)品的位置。處理器通過比較來自麥克風(fēng)的信號的相位信息來確定到達方向。它還必須包括拒絕來自附近物體的用戶聲音反射的優(yōu)先邏輯,并且必須調(diào)整其工作閾值以補償環(huán)境噪聲水平,以便環(huán)境噪聲不會產(chǎn)生錯誤的方向線索。請注意,在耳機等產(chǎn)品中,可能不需要確定到達方向,在這些產(chǎn)品中,用戶嘴巴相對于麥克風(fēng)陣列的物理位置是已知的。
波束成形:麥克風(fēng)陣列的原因是可以處理來自多個麥克風(fēng)的信號,以使陣列變得定向;來自確定的到達方向的聲音被接受,而來自不同方向的聲音被拒絕。對于某些產(chǎn)品,例如耳機和汽車音頻系統(tǒng),用戶的聲音相對于麥克風(fēng)陣列的方向是已知的,因此波束成形器的方向可能是永久固定的。在智能揚聲器、遙控器和家庭自動化墻板等設(shè)備中,必須確定波束成形器所需的聚焦方向,并調(diào)整陣列的響應(yīng)以聚焦于用戶的方向。
回聲消除:回聲消除會抑制來自設(shè)備本身的聲音(如音樂或公告),以便陣列可以更清晰地拾取用戶的聲音。由于原始信號和設(shè)備內(nèi)部揚聲器的響應(yīng)是已知的,因此通過麥克風(fēng)返回的信號可能會被拒絕。然而,來自周圍物體的這種聲音的回聲 - 這是時間延遲的并且頻率內(nèi)容改變 - 也必須被抑制。AEC 在頭戴式耳機和入耳式等產(chǎn)品中不是必需的,因為來自產(chǎn)品揚聲器的聲音是有限的,并且通常沒有足夠的聲音泄漏出來以影響產(chǎn)品麥克風(fēng)的性能。
本地命令集識別:由于便攜式產(chǎn)品可能無法像今天的智能揚聲器那樣依賴Internet連接,因此它們可能需要在沒有外部服務(wù)器幫助的情況下自行識別一定數(shù)量的基本功能命令。這些命令通常僅限于基本功能,如播放、暫停、跳過曲目、重復(fù)和應(yīng)答呼叫。識別這些命令的工作方式與喚醒詞檢測的工作方式相同。但是,即使命令集有限,與只需要識別其喚醒詞并將其他語音識別任務(wù)卸載到外部連接 Internet 的服務(wù)器相比,對本地命令集識別的需求也會增加處理器的負載。
算法調(diào)優(yōu)
上述每種算法的功能都很復(fù)雜,必須進行調(diào)整以適應(yīng)應(yīng)用,特別是在便攜式產(chǎn)品中,其環(huán)境和使用模式可能與家用產(chǎn)品不同。以下是必須調(diào)整以獲得最佳語音識別準確性的算法函數(shù)。
檢測/喚醒閾值:聲音檢測和喚醒詞檢測的閾值級別必須設(shè)置得足夠高,以最大程度地減少設(shè)備的錯誤觸發(fā),但又要足夠低,以便用戶可以在正常說話級別對設(shè)備進行尋址。特別是在便攜式產(chǎn)品中,可能需要動態(tài)調(diào)整這些電平,因此性能會進行調(diào)整以補償不同級別的環(huán)境聲音。動態(tài)補償?shù)墓δ鼙旧肀仨氝M行調(diào)整。
降噪/降噪:根據(jù)應(yīng)用的不同,可能會遇到不同類型的噪聲,并且可以對設(shè)備進行調(diào)整以抑制它們。例如,制造商知道任何給定汽車在不同速度下的道路和發(fā)動機噪音的頻譜,因此可以調(diào)整語音識別系統(tǒng)以拒絕這些聲音。降噪/消除算法也可以動態(tài)運行,適應(yīng)不斷變化的環(huán)境,但這種動態(tài)功能也必須進行調(diào)整。
波束成形器波束寬度:波束成形器的波束寬度越緊,它就越能抑制環(huán)境聲音和來自其他物體的用戶聲音反射。但是,如果用戶稍微移動,則將波束寬度設(shè)置得太緊將導(dǎo)致設(shè)備拒絕用戶的聲音。在耳機和頭戴式耳機等產(chǎn)品中,用戶語音的到達方向沒有變化,光束寬度可以設(shè)置得很緊,但在遙控器和家庭自動化面板等產(chǎn)品中,必須設(shè)置得更寬,以適應(yīng)用戶說話時的移動。
喚醒/睡眠策略:如前所述,最大限度地降低功耗的目標之一是使設(shè)備盡可能頻繁地進入睡眠狀態(tài),并使其盡可能長時間保持睡眠狀態(tài)。但是,此目標需要權(quán)衡利弊。如果設(shè)備在使用后進入睡眠狀態(tài)的速度太快,則可能會錯過喚醒詞后面的命令,并要求用戶再次說出喚醒詞,這可能會使用戶感到沮喪。如果設(shè)備保持喚醒的時間超過必要的時間,它將消耗比所需更多的功率。
DSP概念的語音UI算法經(jīng)過專門設(shè)計,可以輕松調(diào)整上述所有功能,并創(chuàng)建自定義處理配置,以適應(yīng)任何便攜式或電池供電的語音命令產(chǎn)品。信號處理鏈可以通過簡單的圖形界面進行配置,使用400多個可用處理模塊的任意組合(圖1)。這些模塊可以通過熟悉的屏幕旋鈕和按鈕進行調(diào)整,其直觀方式與機架安裝式音頻處理器的調(diào)整方式相同。
[圖1|顯示使用 DSP 概念語音 UI 的音頻處理鏈的圖形配置的屏幕圖像]
由于功耗要求和外形尺寸限制,大多數(shù)便攜式產(chǎn)品中使用的音頻處理器的功能通常低于家用產(chǎn)品中使用的處理器的功能。因此,產(chǎn)品設(shè)計團隊在為語音命令產(chǎn)品設(shè)計信號鏈時必須謹慎,不要超過可用的處理能力。然而,要實現(xiàn)最佳性能,他們需要充分利用可用的處理方式。由于 DSP 概念語音 UI 算法已經(jīng)針對運行它們的處理器進行了優(yōu)化,因此不需要重寫它們以適應(yīng)特定的處理器,也不需要調(diào)試。信號鏈可以實時測試,也可以針對不同的處理器進行測試,這使得為應(yīng)用選擇合適的處理器變得更加容易和快速。
DSP 概念語音 UI 的可調(diào)諧性和多功能性帶來了明顯的性能優(yōu)勢,這可以在 DSP 概念網(wǎng)站的演示視頻中看到。
結(jié)論
創(chuàng)建始終在線的語音命令產(chǎn)品,這些產(chǎn)品可以使用電池供電運行數(shù)小時到數(shù)月,同時實現(xiàn)與當今流行的智能揚聲器類似的功能,這是相當大的挑戰(zhàn)。但是,由于本文中描述的產(chǎn)品,這些挑戰(zhàn)現(xiàn)在是可以控制的。正確選擇組件,結(jié)合仔細調(diào)整以適應(yīng)應(yīng)用,可以產(chǎn)生便攜式語音命令產(chǎn)品,為消費者提供令人滿意和可靠的體驗。看看這些技術(shù)將為未來的便攜式和電池供電技術(shù)產(chǎn)品帶來哪些新功能,便利性和功能將會很有趣。
審核編輯:郭婷
-
電源
+關(guān)注
關(guān)注
185文章
18261瀏覽量
254925 -
處理器
+關(guān)注
關(guān)注
68文章
19799瀏覽量
233457 -
dsp
+關(guān)注
關(guān)注
555文章
8141瀏覽量
355101
發(fā)布評論請先 登錄
低功耗藍牙網(wǎng)關(guān)在智慧工地上的使用
藍牙語音遙控器 低功耗芯片選型HS6621CxC/OM6621
電機溫度監(jiān)測系統(tǒng)低功耗無線節(jié)點模塊設(shè)計
超低功耗振蕩器在嵌入式系統(tǒng)中的應(yīng)用

蜂窩物聯(lián)網(wǎng)的超低功耗特性
基于WTV380-8S語音芯片的智能電子鎖語音交互系統(tǒng)設(shè)計方案介紹

基于WTVxxx語音芯片的智能清潔機器人語音交互系統(tǒng)設(shè)計方案介紹

SiWx917 Wi-Fi6 SoC低功耗無線連接解決方案
電子鎖語音芯片方案,低功耗語音播報ic,NV256H

電子鎖語音芯片方案,低功耗語音播報ic,NV256H
物聯(lián)網(wǎng)系統(tǒng)中常用的低功耗自組網(wǎng)無線傳輸方案(三)_藍牙芯片篇

使用耦合變壓器的150V輸出、低功耗升壓解決方案

低功耗毫米波雷達解決方案使電池供電類接近感應(yīng)產(chǎn)品實現(xiàn)新功能

尋找低功耗、寬溫域的開關(guān)解決方案?Standex Electronics干簧開關(guān)是您的理想選擇!

評論