女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)音識(shí)別的技術(shù)歷程

倩倩 ? 來(lái)源:lq ? 2019-08-22 14:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)音識(shí)別自半個(gè)世紀(jì)前誕生以來(lái),一直處于不溫不火的狀態(tài),直到 2009 年深度學(xué)習(xí)技術(shù)的長(zhǎng)足發(fā)展才使得語(yǔ)音識(shí)別的精度大大提高,雖然還無(wú)法進(jìn)行無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但也在大多數(shù)場(chǎng)景中提供了一種便利高效的溝通方式。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。

語(yǔ)音識(shí)別,通常稱為自動(dòng)語(yǔ)音識(shí)別,英文是Automatic Speech Recognition,縮寫(xiě)為 ASR,主要是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進(jìn)制編碼或者字符序列。但是,我們一般理解的語(yǔ)音識(shí)別其實(shí)都是狹義的語(yǔ)音轉(zhuǎn)文字的過(guò)程,簡(jiǎn)稱語(yǔ)音轉(zhuǎn)文本識(shí)別( Speech To Text, STT )更合適,這樣就能與語(yǔ)音合成(Text To Speech, TTS )對(duì)應(yīng)起來(lái)。

語(yǔ)音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。但是,語(yǔ)音識(shí)別自誕生以來(lái)的半個(gè)多世紀(jì),一直沒(méi)有在實(shí)際應(yīng)用過(guò)程得到普遍認(rèn)可,一方面這與語(yǔ)音識(shí)別的技術(shù)缺陷有關(guān),其識(shí)別精度和速度都達(dá)不到實(shí)際應(yīng)用的要求;另一方面,與業(yè)界對(duì)語(yǔ)音識(shí)別的期望過(guò)高有關(guān),實(shí)際上語(yǔ)音識(shí)別與鍵盤(pán)、鼠標(biāo)或觸摸屏等應(yīng)是融合關(guān)系,而非替代關(guān)系。

深度學(xué)習(xí)技術(shù)自 2009 年興起之后,已經(jīng)取得了長(zhǎng)足進(jìn)步。語(yǔ)音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境,但在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見(jiàn)詞匯場(chǎng)景下的語(yǔ)音識(shí)別率已經(jīng)超過(guò) 95%,意味著具備了與人類相仿的語(yǔ)言識(shí)別能力,而這也是語(yǔ)音識(shí)別技術(shù)當(dāng)前發(fā)展比較火熱的原因。

隨著技術(shù)的發(fā)展,現(xiàn)在口音、方言、噪聲等場(chǎng)景下的語(yǔ)音識(shí)別也達(dá)到了可用狀態(tài),特別是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別已經(jīng)隨著智能音箱的興起成為全球消費(fèi)電子領(lǐng)域應(yīng)用最為成功的技術(shù)之一。由于語(yǔ)音交互提供了更自然、更便利、更高效的溝通形式,語(yǔ)音必定將成為未來(lái)最主要的人機(jī)互動(dòng)接口之一。

當(dāng)然,當(dāng)前技術(shù)還存在很多不足,如對(duì)于強(qiáng)噪聲、超遠(yuǎn)場(chǎng)、強(qiáng)干擾、多語(yǔ)種、大詞匯等場(chǎng)景下的語(yǔ)音識(shí)別還需要很大的提升;另外,多人語(yǔ)音識(shí)別和離線語(yǔ)音識(shí)別也是當(dāng)前需要重點(diǎn)解決的問(wèn)題。雖然語(yǔ)音識(shí)別還無(wú)法做到無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但是至少?gòu)膽?yīng)用實(shí)踐中我們看到了一些希望。

本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。

語(yǔ)音識(shí)別的技術(shù)歷程

現(xiàn)代語(yǔ)音識(shí)別可以追溯到 1952 年,Davis 等人研制了世界上第一個(gè)能識(shí)別 10 個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),從此正式開(kāi)啟了語(yǔ)音識(shí)別的進(jìn)程。語(yǔ)音識(shí)別發(fā)展到今天已經(jīng)有 70 多年,但從技術(shù)方向上可以大體分為三個(gè)階段。

下圖是從 1993 年到 2017 年在 Switchboard 上語(yǔ)音識(shí)別率的進(jìn)展情況,從圖中也可以看出 1993 年到 2009 年,語(yǔ)音識(shí)別一直處于 GMM-HMM 時(shí)代,語(yǔ)音識(shí)別率提升緩慢,尤其是 2000 年到 2009 年語(yǔ)音識(shí)別率基本處于停滯狀態(tài);2009 年隨著深度學(xué)習(xí)技術(shù),特別是 DNN 的興起,語(yǔ)音識(shí)別框架變?yōu)?DNN-HMM,語(yǔ)音識(shí)別進(jìn)入了 DNN 時(shí)代,語(yǔ)音識(shí)別精準(zhǔn)率得到了顯著提升;2015 年以后,由于“端到端”技術(shù)興起,語(yǔ)音識(shí)別進(jìn)入了百花齊放時(shí)代,語(yǔ)音界都在訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò),同時(shí)利用端到端技術(shù)進(jìn)一步大幅提升了語(yǔ)音識(shí)別的性能,直到 2017 年微軟在 Swichboard 上達(dá)到詞錯(cuò)誤率 5.1%,從而讓語(yǔ)音識(shí)別的準(zhǔn)確性首次超越了人類,當(dāng)然這是在一定限定條件下的實(shí)驗(yàn)結(jié)果,還不具有普遍代表性。

GMM-HMM時(shí)代

70 年代,語(yǔ)音識(shí)別主要集中在小詞匯量、孤立詞識(shí)別方面,使用的方法也主要是簡(jiǎn)單的模板匹配方法,即首先提取語(yǔ)音信號(hào)的特征構(gòu)建參數(shù)模板,然后將測(cè)試語(yǔ)音與參考模板參數(shù)進(jìn)行一一比較和匹配,取距離最近的樣本所對(duì)應(yīng)的詞標(biāo)注為該語(yǔ)音信號(hào)的發(fā)音。該方法對(duì)解決孤立詞識(shí)別是有效的,但對(duì)于大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別就無(wú)能為力。因此,進(jìn)入 80 年代后,研究思路發(fā)生了重大變化,從傳統(tǒng)的基于模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。

HMM 的理論基礎(chǔ)在 1970 年前后就已經(jīng)由 Baum 等人建立起來(lái),隨后由 CMU 的 Baker 和 IBM 的 Jelinek 等人將其應(yīng)用到語(yǔ)音識(shí)別當(dāng)中。HMM 模型假定一個(gè)音素含有 3 到 5 個(gè)狀態(tài),同一狀態(tài)的發(fā)音相對(duì)穩(wěn)定,不同狀態(tài)間是可以按照一定概率進(jìn)行跳轉(zhuǎn);某一狀態(tài)的特征分布可以用概率模型來(lái)描述,使用最廣泛的模型是 GMM。因此 GMM-HMM 框架中,HMM 描述的是語(yǔ)音的短時(shí)平穩(wěn)的動(dòng)態(tài)性,GMM 用來(lái)描述 HMM 每一狀態(tài)內(nèi)部的發(fā)音特征。

基于 GMM-HMM 框架,研究者提出各種改進(jìn)方法,如結(jié)合上下文信息的動(dòng)態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN 混合模型方法等。這些方法都對(duì)語(yǔ)音識(shí)別研究產(chǎn)生了深遠(yuǎn)影響,并為下一代語(yǔ)音識(shí)別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì) 90 年代語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后,在很長(zhǎng)一段內(nèi)語(yǔ)音識(shí)別的發(fā)展比較緩慢,語(yǔ)音識(shí)別錯(cuò)誤率那條線一直沒(méi)有明顯下降。

DNN-HMM時(shí)代

2006 年,Hinton 提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的復(fù)蘇。2009 年,Hinton 將 DNN 應(yīng)用于語(yǔ)音的聲學(xué)建模,在 TIMIT 上獲得了當(dāng)時(shí)最好的結(jié)果。2011 年底,微軟研究院的俞棟、鄧力又把 DNN 技術(shù)應(yīng)用在了大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上,大大降低了語(yǔ)音識(shí)別錯(cuò)誤率。從此語(yǔ)音識(shí)別進(jìn)入 DNN-HMM 時(shí)代。

DNN-HMM主要是用 DNN 模型代替原來(lái)的 GMM 模型,對(duì)每一個(gè)狀態(tài)進(jìn)行建模,DNN 帶來(lái)的好處是不再需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè),將相鄰的語(yǔ)音幀拼接又包含了語(yǔ)音的時(shí)序結(jié)構(gòu)信息,使得對(duì)于狀態(tài)的分類概率有了明顯提升,同時(shí)DNN還具有強(qiáng)大環(huán)境學(xué)習(xí)能力,可以提升對(duì)噪聲和口音的魯棒性。

簡(jiǎn)單來(lái)說(shuō),DNN 就是給出輸入的一串特征所對(duì)應(yīng)的狀態(tài)概率。由于語(yǔ)音信號(hào)是連續(xù)的,不僅各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位還會(huì)受到上下文的影響。雖然拼幀可以增加上下文信息,但對(duì)于語(yǔ)音來(lái)說(shuō)還是不夠。而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)可以記住更多歷史信息,更有利于對(duì)語(yǔ)音信號(hào)的上下文信息進(jìn)行建模。

由于簡(jiǎn)單的 RNN 存在梯度爆炸和梯度消散問(wèn)題,難以訓(xùn)練,無(wú)法直接應(yīng)用于語(yǔ)音信號(hào)建模上,因此學(xué)者進(jìn)一步探索,開(kāi)發(fā)出了很多適合語(yǔ)音建模的 RNN 結(jié)構(gòu),其中最有名的就是 LSTM 。LSTM 通過(guò)輸入門(mén)、輸出門(mén)和遺忘門(mén)可以更好的控制信息的流動(dòng)和傳遞,具有長(zhǎng)短時(shí)記憶能力。雖然 LSTM 的計(jì)算復(fù)雜度會(huì)比 DNN 增加,但其整體性能比 DNN 有相對(duì) 20% 左右穩(wěn)定提升。

BLSTM 是在 LSTM 基礎(chǔ)上做的進(jìn)一步改進(jìn),不僅考慮語(yǔ)音信號(hào)的歷史信息對(duì)當(dāng)前幀的影響,還要考慮未來(lái)信息對(duì)當(dāng)前幀的影響,因此其網(wǎng)絡(luò)中沿時(shí)間軸存在正向和反向兩個(gè)信息傳遞過(guò)程,這樣該模型可以更充分考慮上下文對(duì)于當(dāng)前語(yǔ)音幀的影響,能夠極大提高語(yǔ)音狀態(tài)分類的準(zhǔn)確率。BLSTM 考慮未來(lái)信息的代價(jià)是需要進(jìn)行句子級(jí)更新,模型訓(xùn)練的收斂速度比較慢,同時(shí)也會(huì)帶來(lái)解碼的延遲,對(duì)于這些問(wèn)題,業(yè)屆都進(jìn)行了工程優(yōu)化與改進(jìn),即使現(xiàn)在仍然有很多大公司使用的都是該模型結(jié)構(gòu)。

圖像識(shí)別中主流的模型就是 CNN,而語(yǔ)音信號(hào)的時(shí)頻圖也可以看作是一幅圖像,因此 CNN 也被引入到語(yǔ)音識(shí)別中。要想提高語(yǔ)音識(shí)別率,就需要克服語(yǔ)音信號(hào)所面臨的多樣性,包括說(shuō)話人自身、說(shuō)話人所處的環(huán)境、采集設(shè)備等,這些多樣性都可以等價(jià)為各種濾波器與語(yǔ)音信號(hào)的卷積。而 CNN 相當(dāng)于設(shè)計(jì)了一系列具有局部關(guān)注特性的濾波器,并通過(guò)訓(xùn)練學(xué)習(xí)得到濾波器的參數(shù),從而從多樣性的語(yǔ)音信號(hào)中抽取出不變的部分,CNN 本質(zhì)上也可以看作是從語(yǔ)音信號(hào)中不斷抽取特征的一個(gè)過(guò)程。CNN 相比于傳統(tǒng)的 DNN 模型,在相同性能情況下,前者的參數(shù)量更少。

綜上所述,對(duì)于建模能力來(lái)說(shuō),DNN 適合特征映射到獨(dú)立空間,LSTM 具有長(zhǎng)短時(shí)記憶能力,CNN 擅長(zhǎng)減少語(yǔ)音信號(hào)的多樣性,因此一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)是這些網(wǎng)絡(luò)的組合。

端到端時(shí)代

語(yǔ)音識(shí)別的端到端方法主要是代價(jià)函數(shù)發(fā)生了變化,但神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)并沒(méi)有太大變化。總體來(lái)說(shuō),端到端技術(shù)解決了輸入序列的長(zhǎng)度遠(yuǎn)大于輸出序列長(zhǎng)度的問(wèn)題。端到端技術(shù)主要分成兩類:一類是 CTC 方法,另一類是 Sequence-to-Sequence 方法。傳統(tǒng)語(yǔ)音識(shí)別 DNN-HMM 架構(gòu)里的聲學(xué)模型,每一幀輸入都對(duì)應(yīng)一個(gè)標(biāo)簽類別,標(biāo)簽需要反復(fù)的迭代來(lái)確保對(duì)齊更準(zhǔn)確。

采用 CTC 作為損失函數(shù)的聲學(xué)模型序列,不需要預(yù)先對(duì)數(shù)據(jù)對(duì)齊,只需要一個(gè)輸入序列和一個(gè)輸出序列就可以進(jìn)行訓(xùn)練。CTC 關(guān)心的是預(yù)測(cè)輸出的序列是否和真實(shí)的序列相近,而不關(guān)心預(yù)測(cè)輸出序列中每個(gè)結(jié)果在時(shí)間點(diǎn)上是否和輸入的序列正好對(duì)齊。CTC 建模單元是音素或者字,因此它引入了 Blank。對(duì)于一段語(yǔ)音,CTC 最后輸出的是尖峰的序列,尖峰的位置對(duì)應(yīng)建模單元的 Label,其他位置都是 Blank。

Sequence-to-Sequence 方法原來(lái)主要應(yīng)用于機(jī)器翻譯領(lǐng)域。2017 年,Google 將其應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,取得了非常好的效果,將詞錯(cuò)誤率降低至5.6%。如下圖所示,Google 提出新系統(tǒng)的框架由三個(gè)部分組成:Encoder 編碼器組件,它和標(biāo)準(zhǔn)的聲學(xué)模型相似,輸入的是語(yǔ)音信號(hào)的時(shí)頻特征;經(jīng)過(guò)一系列神經(jīng)網(wǎng)絡(luò),映射成高級(jí)特征 henc,然后傳遞給 Attention 組件,其使用 henc 特征學(xué)習(xí)輸入 x 和預(yù)測(cè)子單元之間的對(duì)齊方式,子單元可以是一個(gè)音素或一個(gè)字。最后,attention 模塊的輸出傳遞給 Decoder,生成一系列假設(shè)詞的概率分布,類似于傳統(tǒng)的語(yǔ)言模型。

端到端技術(shù)的突破,不再需要 HMM 來(lái)描述音素內(nèi)部狀態(tài)的變化,而是將語(yǔ)音識(shí)別的所有模塊統(tǒng)一成神經(jīng)網(wǎng)絡(luò)模型,使語(yǔ)音識(shí)別朝著更簡(jiǎn)單、更高效、更準(zhǔn)確的方向發(fā)展。

語(yǔ)音識(shí)別的技術(shù)現(xiàn)狀

目前,主流語(yǔ)音識(shí)別框架還是由 3 個(gè)部分組成:聲學(xué)模型、語(yǔ)言模型和解碼器,有些框架也包括前端處理和后處理。隨著各種深度神經(jīng)網(wǎng)絡(luò)以及端到端技術(shù)的興起,聲學(xué)模型是近幾年非常熱門(mén)的方向,業(yè)界都紛紛發(fā)布自己新的聲學(xué)模型結(jié)構(gòu),刷新各個(gè)數(shù)據(jù)庫(kù)的識(shí)別記錄。由于中文語(yǔ)音識(shí)別的復(fù)雜性,國(guó)內(nèi)在聲學(xué)模型的研究進(jìn)展相對(duì)更快一些,主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù)。

2018 年,科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),DFCNN 使用大量的卷積直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,主要借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過(guò)累積非常多卷積池化層對(duì),從而可以看到更多的歷史信息。

2018 年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。該模型將低幀率算法和 DFSMN 算法進(jìn)行融合,語(yǔ)音識(shí)別錯(cuò)誤率相比上一代技術(shù)降低 20%,解碼速度提升 3 倍。FSMN 通過(guò)在 FNN 的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效的對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。而 DFSMN 是通過(guò)跳轉(zhuǎn)避免深層網(wǎng)絡(luò)的梯度消失問(wèn)題,可以訓(xùn)練出更深層的網(wǎng)絡(luò)結(jié)構(gòu)。

2019 年,百度提出了流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA,該模型是在 LSTM 和 CTC 的基礎(chǔ)上引入了注意力機(jī)制來(lái)獲取更大范圍和更有層次的上下文信息。其中流式表示可以直接對(duì)語(yǔ)音進(jìn)行一個(gè)小片段一個(gè)小片段的增量解碼;多級(jí)表示堆疊多層注意力模型;截?cái)鄤t表示利用 CTC 模型的尖峰信息,把語(yǔ)音切割成一個(gè)一個(gè)小片段,注意力模型和解碼可以在這些小片段上展開(kāi)。在線語(yǔ)音識(shí)別率上,該模型比百度上一代 Deep Peak2 模型提升相對(duì) 15% 的性能。

開(kāi)源語(yǔ)音識(shí)別 Kaldi 是業(yè)界語(yǔ)音識(shí)別框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。該模型是一種類似于 CTC 的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個(gè)狀態(tài),一個(gè)狀態(tài)是 CD Phone,另一個(gè)是 CD Phone 的空白,訓(xùn)練方法采用的是 Lattice-Free MMI 訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進(jìn)行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有非常顯著的提升。

遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)主要解決真實(shí)場(chǎng)景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問(wèn)題,是 2015 年以后開(kāi)始興起的技術(shù)。由于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決了復(fù)雜環(huán)境下的識(shí)別問(wèn)題,在智能家居智能汽車(chē)、智能會(huì)議、智能安防等實(shí)際場(chǎng)景中獲得了廣泛應(yīng)用。目前國(guó)內(nèi)遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的技術(shù)框架以前端信號(hào)處理和后端語(yǔ)音識(shí)別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號(hào)處理,以讓語(yǔ)音更清晰,然后送入后端的語(yǔ)音識(shí)別引擎進(jìn)行識(shí)別。

語(yǔ)音識(shí)別另外兩個(gè)技術(shù)部分:語(yǔ)言模型和解碼器,目前來(lái)看并沒(méi)有太大的技術(shù)變化。語(yǔ)言模型主流還是基于傳統(tǒng)的 N-Gram 方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的研究,但在實(shí)用中主要還是更多用于后處理糾錯(cuò)。解碼器的核心指標(biāo)是速度,業(yè)界大部分都是按照靜態(tài)解碼的方式進(jìn)行,即將聲學(xué)模型和語(yǔ)言模型構(gòu)造成 WFST 網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了所有可能路徑,解碼就是在該空間進(jìn)行搜索的過(guò)程。由于該理論相對(duì)成熟,更多的是工程優(yōu)化的問(wèn)題,所以不論是學(xué)術(shù)還是產(chǎn)業(yè)目前關(guān)注的較少。

語(yǔ)音識(shí)別的技術(shù)趨勢(shì)

語(yǔ)音識(shí)別主要趨于遠(yuǎn)場(chǎng)化和融合化的方向發(fā)展,但在遠(yuǎn)場(chǎng)可靠性還有很多難點(diǎn)沒(méi)有突破,比如多輪交互、多人噪雜等場(chǎng)景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問(wèn)題,讓機(jī)器聽(tīng)覺(jué)遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個(gè)產(chǎn)業(yè)鏈的共同技術(shù)升級(jí),包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。

單從遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)來(lái)看,仍然存在很多挑戰(zhàn),包括:

(1)回聲消除技術(shù)。由于喇叭非線性失真的存在,單純依靠信號(hào)處理手段很難將回聲消除干凈,這也阻礙了語(yǔ)音交互系統(tǒng)的推廣,現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒(méi)有考慮相位信息,直接求取的是各個(gè)頻帶上的增益,能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合,同時(shí)結(jié)合信號(hào)處理手段可能是一個(gè)好的方向。

(2)噪聲下的語(yǔ)音識(shí)別仍有待突破。信號(hào)處理擅長(zhǎng)處理線性問(wèn)題,深度學(xué)習(xí)擅長(zhǎng)處理非線性問(wèn)題,而實(shí)際問(wèn)題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語(yǔ)音識(shí)別問(wèn)題。

(3)上述兩個(gè)問(wèn)題的共性是目前的深度學(xué)習(xí)僅用到了語(yǔ)音信號(hào)各個(gè)頻帶的能量信息,而忽略了語(yǔ)音信號(hào)的相位信息,尤其是對(duì)于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來(lái)的一個(gè)方向。

(4)另外,在較少數(shù)據(jù)量的情況下,如何通過(guò)遷移學(xué)習(xí)得到一個(gè)好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識(shí)別,若有一個(gè)比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個(gè)好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語(yǔ)音識(shí)別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離終極目標(biāo)還有一定差距。

(5)語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是最終的目的。如何將語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合起來(lái)可能是未來(lái)更為重要的一個(gè)方向。語(yǔ)音識(shí)別里的 LSTM 已經(jīng)考慮了語(yǔ)音的歷史時(shí)刻信息,但語(yǔ)義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語(yǔ)音識(shí)別引擎是一個(gè)難題。

(6)讓機(jī)器聽(tīng)懂人類語(yǔ)言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件。而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界,聽(tīng)到人類聽(tīng)不到的世界。

語(yǔ)音識(shí)別的產(chǎn)業(yè)歷程

語(yǔ)音識(shí)別這半個(gè)多世紀(jì)的產(chǎn)業(yè)歷程中,其中共有三個(gè)關(guān)鍵節(jié)點(diǎn),兩個(gè)和技術(shù)有關(guān),一個(gè)和應(yīng)用有關(guān)。第一個(gè)關(guān)鍵節(jié)點(diǎn)是 1988 年的一篇博士論文,開(kāi)發(fā)了第一個(gè)基于隱馬爾科夫模型(HMM)的語(yǔ)音識(shí)別系統(tǒng)—— Sphinx,當(dāng)時(shí)實(shí)現(xiàn)這一系統(tǒng)的正是現(xiàn)在的著名投資人李開(kāi)復(fù)。

從 1986 年到 2010 年,雖然混合高斯模型效果得到持續(xù)改善,而被應(yīng)用到語(yǔ)音識(shí)別中,并且確實(shí)提升了語(yǔ)音識(shí)別的效果,但實(shí)際上語(yǔ)音識(shí)別已經(jīng)遭遇了技術(shù)天花板,識(shí)別的準(zhǔn)確率很難超過(guò) 90%。很多人可能還記得,在 1998 年前后 IBM、微軟都曾經(jīng)推出和語(yǔ)音識(shí)別相關(guān)的軟件,但最終并未取得成功。

第二個(gè)關(guān)鍵節(jié)點(diǎn)是 2009 年深度學(xué)習(xí)被系統(tǒng)應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域中。這導(dǎo)致識(shí)別的精度再次大幅提升,最終突破 90%,并且在標(biāo)準(zhǔn)環(huán)境下逼近 98%。有意思的是,盡管技術(shù)取得了突破,也涌現(xiàn)出了一些與此相關(guān)的產(chǎn)品,比如 Siri、Google Assistant 等,但與其引起的關(guān)注度相比,這些產(chǎn)品實(shí)際取得的成績(jī)則要遜色得多。Siri 剛一面世的時(shí)候,時(shí)任 Google CEO 的施密特就高呼,這會(huì)對(duì) Google 的搜索業(yè)務(wù)產(chǎn)生根本性威脅,但事實(shí)上直到 Amazon Echo 的面世,這種根本性威脅才真的有了具體的載體。

第三個(gè)關(guān)鍵點(diǎn)正是 Amazon Echo 的出現(xiàn),純粹從語(yǔ)音識(shí)別和自然語(yǔ)言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對(duì)于 Siri 等并未有什么本質(zhì)性改變,核心變化只是把近場(chǎng)語(yǔ)音交互變成了遠(yuǎn)場(chǎng)語(yǔ)音交互。Echo 正式面世于 2015 年 6 月,到 2017 年銷量已經(jīng)超過(guò)千萬(wàn),同時(shí)在 Echo 上扮演類似 Siri 角色的 Alexa 漸成生態(tài),其后臺(tái)的第三方技能已經(jīng)突破 10000 項(xiàng)。借助落地時(shí)從近場(chǎng)到遠(yuǎn)場(chǎng)的突破,亞馬遜一舉從這個(gè)賽道的落后者變?yōu)樾袠I(yè)領(lǐng)導(dǎo)者。

但自從遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)規(guī)模落地以后,語(yǔ)音識(shí)別領(lǐng)域的產(chǎn)業(yè)競(jìng)爭(zhēng)已經(jīng)開(kāi)始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰(shuí)更有優(yōu)勢(shì),而應(yīng)用比較的是在真實(shí)場(chǎng)景下誰(shuí)的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗(yàn),而一旦比拼真實(shí)場(chǎng)景下的體驗(yàn),語(yǔ)音識(shí)別便失去獨(dú)立存在的價(jià)值,更多作為產(chǎn)品體驗(yàn)的一個(gè)環(huán)節(jié)而存在。

所以到 2019 年,語(yǔ)音識(shí)別似乎進(jìn)入了一個(gè)相對(duì)平靜期,全球產(chǎn)業(yè)界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋(píng)果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過(guò)后紛紛開(kāi)始反思自己的定位和下一步的打法。

語(yǔ)音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種大躍進(jìn)的姿態(tài)出現(xiàn)在大眾面前。2016 年以前,智能音箱玩家們對(duì)這款產(chǎn)品的認(rèn)識(shí)還都停留在:亞馬遜出了一款叫 Echo 的產(chǎn)品,功能和 Siri 類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉(zhuǎn)為積極參與的轉(zhuǎn)折點(diǎn)是逐步曝光的 Echo 銷量,2016 年底,Echo 近千萬(wàn)的美國(guó)銷量讓整個(gè)世界震驚。這是智能設(shè)備從未達(dá)到過(guò)的高點(diǎn),在 Echo 以前除了 Apple Watch 與手環(huán),像恒溫器、攝像頭這樣的產(chǎn)品突破百萬(wàn)銷量已是驚人表現(xiàn)。這種銷量以及智能音箱的 AI 屬性促使 2016 年下半年,國(guó)內(nèi)各大巨頭幾乎是同時(shí)轉(zhuǎn)變態(tài)度,積極打造自己的智能音箱。

未來(lái),回看整個(gè)發(fā)展歷程,2019 年是一個(gè)明確的分界點(diǎn)。在此之前,全行業(yè)是突飛猛進(jìn),但 2019 年之后則開(kāi)始進(jìn)入對(duì)細(xì)節(jié)領(lǐng)域滲透和打磨的階段,人們關(guān)注的焦點(diǎn)也不再是單純的技術(shù)指標(biāo),而是回歸到體驗(yàn),回歸到一種“新的交互方式到底能給我們帶來(lái)什么價(jià)值”這樣更為一般的、純粹的商業(yè)視角。技術(shù)到產(chǎn)品再到是否需要與具體的形象進(jìn)行交互結(jié)合,比如人物形象;流程自動(dòng)化是否要與語(yǔ)音結(jié)合;酒店場(chǎng)景應(yīng)該如何使用這種技術(shù)來(lái)提升體驗(yàn),諸如此類最終都會(huì)一一呈現(xiàn)在從業(yè)者面前。而此時(shí)行業(yè)的主角也會(huì)從原來(lái)的產(chǎn)品方過(guò)渡到平臺(tái)提供方,AIoT 縱深過(guò)大,沒(méi)有任何一個(gè)公司可以全線打造所有的產(chǎn)品。

語(yǔ)音識(shí)別的產(chǎn)業(yè)趨勢(shì)

當(dāng)語(yǔ)音產(chǎn)業(yè)需求四處開(kāi)花的同時(shí),行業(yè)的發(fā)展速度反過(guò)來(lái)會(huì)受限于平臺(tái)服務(wù)商的供給能力。跳出具體案例來(lái)看,行業(yè)下一步發(fā)展的本質(zhì)邏輯是:在具體每個(gè)點(diǎn)的投入產(chǎn)出是否達(dá)到一個(gè)普遍接受的界限。

離這個(gè)界限越近,行業(yè)就越會(huì)接近滾雪球式發(fā)展的臨界點(diǎn),否則整體增速就會(huì)相對(duì)平緩。不管是家居、酒店、金融、教育或者其他場(chǎng)景,如果解決問(wèn)題都是非常高投入并且長(zhǎng)周期的事情,那對(duì)此承擔(dān)成本的一方就會(huì)猶豫,這相當(dāng)于試錯(cuò)成本過(guò)高。如果投入后,沒(méi)有可感知的新體驗(yàn)或者銷量促進(jìn),那對(duì)此承擔(dān)成本的一方也會(huì)猶豫,顯然這會(huì)影響值不值得上的判斷。而這兩個(gè)事情,歸根結(jié)底都必須由平臺(tái)方解決,產(chǎn)品方或者解決方案方對(duì)此無(wú)能為力,這是由智能語(yǔ)音交互的基礎(chǔ)技術(shù)特征所決定。

從核心技術(shù)來(lái)看,整個(gè)語(yǔ)音交互鏈條有五項(xiàng)單點(diǎn)技術(shù):?jiǎn)拘选Ⅺ溈孙L(fēng)陣列、語(yǔ)音識(shí)別、自然語(yǔ)言處理、語(yǔ)音合成,其它技術(shù)點(diǎn)比如聲紋識(shí)別、哭聲檢測(cè)等數(shù)十項(xiàng)技術(shù)通用性略弱,但分別出現(xiàn)在不同的場(chǎng)景下,并會(huì)在特定場(chǎng)景下成為關(guān)鍵。看起來(lái)關(guān)聯(lián)的技術(shù)已經(jīng)相對(duì)龐雜,但切換到商業(yè)視角我們就會(huì)發(fā)現(xiàn),找到這些技術(shù)距離打造一款體驗(yàn)上佳的產(chǎn)品仍然有絕大距離。

所有語(yǔ)音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來(lái)打造產(chǎn)品,那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺(tái),逐項(xiàng)整合具體的內(nèi)容(比如音樂(lè)、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來(lái)看是不可接受的。這時(shí)候就會(huì)催生相應(yīng)的平臺(tái)服務(wù)商,它要同時(shí)解決技術(shù)、內(nèi)容接入和工程細(xì)節(jié)等問(wèn)題,最終達(dá)成試錯(cuò)成本低、體驗(yàn)卻足夠好的目標(biāo)。

平臺(tái)服務(wù)并不需要閉門(mén)造車(chē),平臺(tái)服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是 AI+IOT 的特征,也是有所參照的,亞馬遜過(guò)去近 10 年里是同步著手做兩件事:一個(gè)是持續(xù)推出面向終端用戶的產(chǎn)品,比如 Echo,Echo Show等;一個(gè)是把所有產(chǎn)品所內(nèi)置的系統(tǒng) Alexa 進(jìn)行平臺(tái)化,面向設(shè)備端和技能端同步開(kāi)放SDK和調(diào)試發(fā)布平臺(tái)。雖然 Google Assistant 號(hào)稱單點(diǎn)技術(shù)更為領(lǐng)先,但從各方面的結(jié)果來(lái)看 Alexa 是當(dāng)之無(wú)愧的最為領(lǐng)先的系統(tǒng)平臺(tái),可惜的是 Alexa 并不支持中文以及相應(yīng)的后臺(tái)服務(wù)。

國(guó)內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺(tái)提供商,當(dāng)前的平臺(tái)提供商分為兩個(gè)陣營(yíng):一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕,因此在平臺(tái)服務(wù)上反倒是可以主推一些更為面向未來(lái)、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會(huì)更加徹底,這種兼容性對(duì)于一套產(chǎn)品同時(shí)覆蓋國(guó)內(nèi)國(guó)外市場(chǎng)是相當(dāng)有利的。

類比過(guò)去的 Android,語(yǔ)音交互的平臺(tái)提供商們其實(shí)面臨更大的挑戰(zhàn),發(fā)展過(guò)程可能會(huì)更加的曲折。過(guò)去經(jīng)常被提到的操作系統(tǒng)的概念在智能語(yǔ)音交互背景下事實(shí)上正被賦予新的內(nèi)涵,它日益被分成兩個(gè)不同但必須緊密結(jié)合的部分。

過(guò)去的 Linux 以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色,而以 Alexa 為代表的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出最終用戶可感知的體驗(yàn)。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對(duì)多的關(guān)系,不同的 AIoT 硬件產(chǎn)品在傳感器(深度攝像頭、雷達(dá)等)、顯示器上(有屏、無(wú)屏、小屏、大屏等)具有巨大差異,這會(huì)導(dǎo)致功能型系統(tǒng)的持續(xù)分化(可以和 Linux 的分化相對(duì)應(yīng))。這反過(guò)來(lái)也就意味著一套智能型系統(tǒng),必須同時(shí)解決與功能型系統(tǒng)的適配以及對(duì)不同后端內(nèi)容以及場(chǎng)景進(jìn)行支撐的雙重責(zé)任。

這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去,而解決后者則更像應(yīng)用商店的開(kāi)發(fā)者。這里面蘊(yùn)含著巨大的挑戰(zhàn)和機(jī)遇。在過(guò)去功能型操作系統(tǒng)的打造過(guò)程中,國(guó)內(nèi)的程序員們更多的是使用者的角色,但智能型操作系統(tǒng)雖然也可以參照其他,但這次必須自己來(lái)從頭打造完整的系統(tǒng)。(國(guó)外巨頭不管在中文相關(guān)的技術(shù)上還是內(nèi)容整合上事實(shí)上都非常薄弱,不存在侵略國(guó)內(nèi)市場(chǎng)的可能性)

隨著平臺(tái)服務(wù)商兩邊的問(wèn)題解決的越來(lái)越好,基礎(chǔ)的計(jì)算模式則會(huì)逐漸發(fā)生改變,人們的數(shù)據(jù)消費(fèi)模式會(huì)與今天不同。個(gè)人的計(jì)算設(shè)備(當(dāng)前主要是手機(jī)、筆記本、Pad)會(huì)根據(jù)不同場(chǎng)景進(jìn)一步分化。比如在車(chē)上、家里、酒店、工作場(chǎng)景、路上、業(yè)務(wù)辦理等會(huì)根據(jù)地點(diǎn)和業(yè)務(wù)進(jìn)行分化。但分化的同時(shí)背后的服務(wù)則是統(tǒng)一的,每個(gè)人可以自由的根據(jù)場(chǎng)景做設(shè)備的遷移,背后的服務(wù)雖然會(huì)針對(duì)不同的場(chǎng)景進(jìn)行優(yōu)化,但在個(gè)人偏好這樣的點(diǎn)上則是統(tǒng)一的。

人與數(shù)字世界的接口,在現(xiàn)在越來(lái)越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機(jī)),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會(huì)越來(lái)越統(tǒng)一于系統(tǒng)本身。作為結(jié)果這會(huì)帶來(lái)數(shù)據(jù)化程度的持續(xù)加深,我們?cè)絹?lái)越接近一個(gè)百分百數(shù)據(jù)化的世界。

總結(jié)

從技術(shù)進(jìn)展和產(chǎn)業(yè)發(fā)展來(lái)看,語(yǔ)音識(shí)別雖然還不能解決無(wú)限制場(chǎng)景、無(wú)限制人群的通用識(shí)別問(wèn)題,但是已經(jīng)能夠在各個(gè)真實(shí)場(chǎng)景中普遍應(yīng)用并且得到規(guī)模驗(yàn)證。更進(jìn)一步的是,技術(shù)和產(chǎn)業(yè)之間形成了比較好的正向迭代效應(yīng),落地場(chǎng)景越多,得到的真實(shí)數(shù)據(jù)越多,挖掘的用戶需求也更準(zhǔn)確,這幫助了語(yǔ)音識(shí)別技術(shù)快速進(jìn)步,也基本滿足了產(chǎn)業(yè)需求,解決了很多實(shí)際問(wèn)題,這也是語(yǔ)音識(shí)別相對(duì)其他 AI 技術(shù)最為明顯的優(yōu)勢(shì)。

不過(guò),我們也要看到,語(yǔ)音識(shí)別的內(nèi)涵必須不斷擴(kuò)展,狹義語(yǔ)音識(shí)別必須走向廣義語(yǔ)音識(shí)別,致力于讓機(jī)器聽(tīng)懂人類語(yǔ)言,這才能將語(yǔ)音識(shí)別研究帶到更高維度。我們相信,多技術(shù)、多學(xué)科、多傳感的融合化將是未來(lái)人工智能發(fā)展的主流趨勢(shì)。在這種趨勢(shì)下,我們還有很多未來(lái)的問(wèn)題需要探討,比如鍵盤(pán)、鼠標(biāo)、觸摸屏和語(yǔ)音交互的關(guān)系怎么變化?搜索、電商、社交是否再次重構(gòu)?硬件是否逆襲變得比軟件更加重要?產(chǎn)業(yè)鏈中的傳感、芯片、操作系統(tǒng)、產(chǎn)品和內(nèi)容廠商之間的關(guān)系又該如何變化?

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1780

    瀏覽量

    114220
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249348
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122791
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    普強(qiáng)信息入選2024語(yǔ)音識(shí)別技術(shù)公司TOP30榜單

    普強(qiáng)憑借在語(yǔ)音識(shí)別領(lǐng)域多年的技術(shù)積淀與持續(xù)的創(chuàng)新突破,成功入選“2024語(yǔ)音識(shí)別技術(shù)公司TOP3
    的頭像 發(fā)表于 04-18 17:25 ?632次閱讀

    語(yǔ)音識(shí)別技術(shù)在通信領(lǐng)域中的應(yīng)用實(shí)例

    語(yǔ)音識(shí)別技術(shù)也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),是通過(guò)計(jì)算機(jī)對(duì)
    的頭像 發(fā)表于 02-21 17:12 ?696次閱讀

    詳解語(yǔ)音識(shí)別技術(shù)在通信領(lǐng)域中的應(yīng)用

    語(yǔ)音識(shí)別技術(shù)也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),是通過(guò)計(jì)算機(jī)對(duì)
    的頭像 發(fā)表于 02-21 17:05 ?780次閱讀
    詳解<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>在通信領(lǐng)域中的應(yīng)用

    新品| Unit ASR,一體化離線語(yǔ)音識(shí)別單元

    UnitASR是一款A(yù)I語(yǔ)音識(shí)別單元,內(nèi)置AI智能離線語(yǔ)音模塊CI-03T。它具有語(yǔ)音識(shí)別、聲紋識(shí)別
    的頭像 發(fā)表于 02-14 18:34 ?419次閱讀
    新品| Unit ASR,一體化離線<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>單元

    【「嵌入式系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)」閱讀體驗(yàn)】+ 基于語(yǔ)音識(shí)別的智能杯墊

    語(yǔ)音命令Q 識(shí)別,適用于智能家居控制、玩具、人機(jī)交互等多個(gè)領(lǐng)域。該模塊以其高識(shí)別率、低功耗和易于集成的特點(diǎn)受到廣大開(kāi)發(fā)者的青睞。 主要技術(shù)及功能有: 磁力攪拌、重量采集、
    發(fā)表于 01-02 18:15

    基于語(yǔ)音識(shí)別的智能會(huì)議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專注智能語(yǔ)音交互領(lǐng)域多年,在語(yǔ)音識(shí)別語(yǔ)音合成領(lǐng)域有著多項(xiàng)大型企業(yè)合作案例,標(biāo)貝與多個(gè)智能會(huì)議系統(tǒng)廠商合作,成功將語(yǔ)音
    的頭像 發(fā)表于 12-20 10:35 ?586次閱讀

    語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用

    語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來(lái)越廣泛,為醫(yī)療服務(wù)帶來(lái)了諸多便利和效率提升。以下是對(duì)語(yǔ)音識(shí)別技術(shù)
    的頭像 發(fā)表于 11-26 09:35 ?1200次閱讀

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    在人工智能的快速發(fā)展中,語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使
    的頭像 發(fā)表于 11-26 09:21 ?1495次閱讀

    語(yǔ)音識(shí)別技術(shù)的應(yīng)用與發(fā)展

    語(yǔ)音識(shí)別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來(lái),隨著計(jì)算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項(xiàng)技術(shù)才真正成熟并廣泛應(yīng)用于各個(gè)領(lǐng)域。
    的頭像 發(fā)表于 11-26 09:20 ?1631次閱讀

    基于語(yǔ)音識(shí)別技術(shù)的智能家居控制系統(tǒng)

    語(yǔ)音識(shí)別的智能控制系統(tǒng)是智能家居的重要組成部分,相比傳統(tǒng)的遙控或觸控方式,基于語(yǔ)音識(shí)別控制的智能家居系統(tǒng)通過(guò)人機(jī)語(yǔ)音交互的方式,實(shí)現(xiàn)對(duì)家居
    的頭像 發(fā)表于 11-19 17:25 ?1232次閱讀
    基于<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b><b class='flag-5'>技術(shù)</b>的智能家居控制系統(tǒng)

    ASR與傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別

    識(shí)別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。 提高了語(yǔ)音識(shí)別的準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)語(yǔ)音
    的頭像 發(fā)表于 11-18 15:22 ?1349次閱讀

    ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語(yǔ)音識(shí)別技術(shù),是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語(yǔ)音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。
    的頭像 發(fā)表于 11-18 15:12 ?2061次閱讀

    WTK6900FC語(yǔ)音識(shí)別模塊

    語(yǔ)音識(shí)別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月25日 17:35:07

    唯創(chuàng)知音WT2605C用在離在線語(yǔ)音識(shí)別方案# #語(yǔ)音芯片 #語(yǔ)音識(shí)別 #唯創(chuàng)知音

    語(yǔ)音識(shí)別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月12日 17:24:28

    什么是離線語(yǔ)音識(shí)別芯片?與在線語(yǔ)音識(shí)別的區(qū)別

    離線語(yǔ)音識(shí)別芯片適用于智能家電等,特點(diǎn)為小詞匯量、低成本、安全性高、響應(yīng)快,無(wú)需聯(lián)網(wǎng)。在線語(yǔ)音識(shí)別功能更廣泛、識(shí)別準(zhǔn)確率高,但依賴穩(wěn)定網(wǎng)絡(luò)。
    的頭像 發(fā)表于 07-22 11:33 ?953次閱讀