黄视频网站,狠狠色伊人亚洲综合网站,好看的黄色视频

語(yǔ)音識(shí)別，通常稱為自動(dòng)語(yǔ)音識(shí)別，主要是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入，也有可能是按鍵、二進(jìn)制編碼或者字符序列。但是，我們一般理解的語(yǔ)音識(shí)別其實(shí)都是狹義的語(yǔ)音轉(zhuǎn)文字的過(guò)程，簡(jiǎn)稱語(yǔ)音轉(zhuǎn)文本識(shí)別，主要是識(shí)別和確認(rèn)發(fā)出語(yǔ)音的人而非其中所包含的內(nèi)容。

語(yǔ)音識(shí)別的目的就是讓機(jī)器聽(tīng)懂人類口述的語(yǔ)言，包括了兩方面的含義：一是逐字逐句聽(tīng)懂而不是轉(zhuǎn)化成書面的語(yǔ)言文字；二是對(duì)口述語(yǔ)言中所包含的命令或請(qǐng)求加以領(lǐng)會(huì)，做出正確回應(yīng)，而不僅僅只是拘泥于所有詞匯的正確轉(zhuǎn)換。

語(yǔ)音識(shí)別系統(tǒng)根據(jù)對(duì)輸入語(yǔ)音的限制分類，可以將識(shí)別系統(tǒng)分為三類：

①特定人語(yǔ)音識(shí)別系統(tǒng)，僅考慮對(duì)于專人的話音進(jìn)行識(shí)別。

②非特定人語(yǔ)音系統(tǒng)，識(shí)別的語(yǔ)音與人無(wú)關(guān)，通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí)。

③多人的識(shí)別系統(tǒng)，通常能識(shí)別一組人的語(yǔ)音，或者成為特定組語(yǔ)音識(shí)別系統(tǒng)，該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語(yǔ)音進(jìn)行訓(xùn)練。

根據(jù)從說(shuō)話的方式考慮，也可以將識(shí)別系統(tǒng)分為三類：

①孤立詞語(yǔ)音識(shí)別系統(tǒng)，孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓。

②連接詞語(yǔ)音識(shí)別系統(tǒng)，連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音，一些連音現(xiàn)象開(kāi)始出現(xiàn)。

③連續(xù)語(yǔ)音識(shí)別系統(tǒng)，連續(xù)語(yǔ)音輸入是自然流利的連續(xù)語(yǔ)音輸入，大量連音和變音會(huì)出現(xiàn)。

在過(guò)去5-10年，隨著技術(shù)快速迭代，語(yǔ)音識(shí)別市場(chǎng)在我國(guó)得到飛快發(fā)展，目前處于深度神經(jīng)網(wǎng)絡(luò)階段。如今，語(yǔ)音識(shí)別主流廠商主要使用端到端的算法，在實(shí)驗(yàn)環(huán)境準(zhǔn)確率可高達(dá)99%以上，為推動(dòng)新基建發(fā)展，5G、人工智能、云計(jì)算等作為輔助核心基礎(chǔ)設(shè)施的核心技術(shù)得到進(jìn)一步加速發(fā)展，帶動(dòng)語(yǔ)音識(shí)別迎來(lái)迎來(lái)了更加廣闊的發(fā)展空間，智能家居、智能音箱、智能車載和智能硬件等等都得到很好的廣泛應(yīng)用。

語(yǔ)音識(shí)別主要趨于遠(yuǎn)場(chǎng)化和融合化的方向發(fā)展，但在遠(yuǎn)場(chǎng)可靠性還有很多難點(diǎn)沒(méi)有突破，比如多輪交互、多人噪雜等場(chǎng)景還有待突破，還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問(wèn)題，讓機(jī)器聽(tīng)覺(jué)遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步，需要整個(gè)產(chǎn)業(yè)鏈的共同技術(shù)升級(jí)，包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。

單從遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)來(lái)看，仍然存在很多挑戰(zhàn)，包括：

回聲消除技術(shù)。由于喇叭非線性失真的存在，單純依靠信號(hào)處理手段很難將回聲消除干凈，這也阻礙了語(yǔ)音交互系統(tǒng)的推廣，現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒(méi)有考慮相位信息，直接求取的是各個(gè)頻帶上的增益，能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合，同時(shí)結(jié)合信號(hào)處理手段可能是一個(gè)好的方向。

噪聲下的語(yǔ)音識(shí)別仍有待突破。信號(hào)處理擅長(zhǎng)處理線性問(wèn)題，深度學(xué)習(xí)擅長(zhǎng)處理非線性問(wèn)題，而實(shí)際問(wèn)題一定是線性和非線性的疊加，因此一定是兩者融合才有可能更好地解決噪聲下的語(yǔ)音識(shí)別問(wèn)題。

語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類，因此轉(zhuǎn)換成文字并不是最終的目的，如何將語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合起來(lái)可能是未來(lái)更為重要的一個(gè)方向。語(yǔ)音識(shí)別里的LSTM已經(jīng)考慮了語(yǔ)音的歷史時(shí)刻信息，但語(yǔ)義理解需要更多的歷史信息才能有幫助，因此如何將更多上下文會(huì)話信息傳遞給語(yǔ)音識(shí)別引擎是一個(gè)難題。

讓機(jī)器聽(tīng)懂人類語(yǔ)言，僅靠聲音信息還不夠，“聲光電熱力磁”這些物理傳感手段，下一步必然都要融合在一起，只有這樣機(jī)器才能感知世界的真實(shí)信息，這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件；而且，機(jī)器必然要超越人類的五官，能夠看到人類看不到的世界，聽(tīng)到人類聽(tīng)不到的世界。

未來(lái)，相信在國(guó)家政策的強(qiáng)力扶持下，能夠加速在垂直行業(yè)的滲透和布局，也相信在供應(yīng)商和開(kāi)發(fā)者共同努力下，語(yǔ)音識(shí)別技術(shù)能夠更好地與其他語(yǔ)音交互技術(shù)及軟件功能融合，為消費(fèi)者提供更優(yōu)質(zhì)的體驗(yàn)。

文章整合自：旺龍ITLONG、eepw、個(gè)人圖書館

審核編輯：鄢孟繁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
39

文章
1773

瀏覽量
113880
機(jī)器

機(jī)器

+關(guān)注

關(guān)注
0

文章
790

瀏覽量
41112
二進(jìn)制編碼

二進(jìn)制編碼

+關(guān)注

關(guān)注
0

文章
8

瀏覽量
3204

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

淺析語(yǔ)音識(shí)別技術(shù)的發(fā)展歷程

評(píng)論