女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

回顧語音識別技術(shù)優(yōu)勢及產(chǎn)品落地之路的應(yīng)用發(fā)展

訊飛開放平臺 ? 來源:djl ? 作者:汪艦 ? 2019-10-08 08:32 ? 次閱讀

什么是語音識別

語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。

語音識別技術(shù)歷史發(fā)展進程

語音識別的研究可以追溯到20世紀(jì)50年代AT&T貝爾實驗室的Audry系統(tǒng),它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。

但真正取得實質(zhì)性進展,并將它作為一個重要的課題開展研究則是在60年代末70年代初。計算機技術(shù)的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能,語音信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù)的提出,有效解決了語音信號的特征提取和不等長匹配問題。這一時期語音識別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識別,實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立詞語音識別系統(tǒng);同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代HMM和ANN在語音識別中成功應(yīng)用。李開復(fù)實現(xiàn)了第一個基于HMM的大詞匯量語音識別系統(tǒng)Sphinx。90年代隨著多媒體時代的來臨,大量企業(yè)開始投入巨資語音識別系統(tǒng)逐漸從實驗室走向?qū)嵱谩?0年代以來大數(shù)據(jù)、漣漪效應(yīng)和深度神經(jīng)網(wǎng)絡(luò)帶來了語音識別爆發(fā)。

語音識別的過程

首先是聲音的輸入,輸入的音頻可以是實時的來自于麥克風(fēng),也可以來自于現(xiàn)成的音頻文件。然后是音頻信號的預(yù)處理,包括降噪、回聲消除、端點檢查和模數(shù)轉(zhuǎn)換等等。特征提取,就是從音頻信號中提取出對識別有用的信息,將這些信息拿到聲學(xué)模型中去匹配,會得到這些音頻信號的發(fā)音信息,比如這里例子中的“科大訊飛”四個字的發(fā)音信息。然后把這些發(fā)音信息拿到語言模型中匹配,找出最大概率的發(fā)這四個音的漢字。這樣一個識別的過程就完成了。

這過程中比較核心的部分就是聲學(xué)模型和語言模型的匹配和處理,HMM(隱馬爾科夫模型)和深度神經(jīng)網(wǎng)絡(luò)就是在這里發(fā)揮作用的。

由于HMM只需要少量的數(shù)據(jù)就能訓(xùn)練出一個可用的模型,所以在上世界80、90年代,HMM技術(shù)在語音識別領(lǐng)域幾乎是處于統(tǒng)治地位的,直到移動互聯(lián)網(wǎng)還有大數(shù)據(jù)技術(shù)的爆發(fā),數(shù)據(jù)的來源已經(jīng)完全不是問題的情況下,深度神經(jīng)網(wǎng)絡(luò)才逐漸讓HMM退居二線。下面我們以HMM為例,講解一下它在語音識別中是如何發(fā)揮作用的。

HMM淺析

首先和大家分享一個我在網(wǎng)上看到的關(guān)于異地戀的故事:小明有個女朋友在北京上學(xué)。

我們來給出一些假設(shè)條件,比如女朋友只有購物散步和宅家里這三種活動(這些叫可觀察到的狀態(tài)),天氣也只有多云晴天和下雨三種(這些叫隱藏的狀態(tài),就是小明無法直接觀察到的狀態(tài)),如果第一天是多云的情況下,第二天還是多云的概率是0.5、晴天的概率0.3、下雨的概率0.2;再比如今天是晴天的情況下,女朋友去購物的概率是0.5,去散步的概率0.3,宅家里的概率0.2。那么所有上述的假設(shè)條件合在一起其實就形成了一個模型,這個模型就叫做HMM模型。

這三個問題在很早以前就有很多算法大師給出了解法,也就是說這些看起來很難解的問題對計算機來說都很快解出來。

那么這些和語音識別到底有什么關(guān)系?我將第二個問題和第三個問題抽象一下。

大家看這張PPT,左邊這個部分就對應(yīng)剛剛的第二個問題:已知模型參數(shù)和女朋友的活動序列(就是可觀察狀態(tài)鏈),來求最大概率的隱藏狀態(tài)鏈(也就是這三天天氣的變化序列)。

而語音識別也是已知一個HMM和一段我們可觀察到的波形,來求這段音頻包含的最大概率的隱藏狀態(tài),這里隱藏狀態(tài)鏈指的就是識別結(jié)果中的文字。

對于第三個問題,由于缺少了一個已知的HMM模型,所以我們需要先利用已知的歷史數(shù)據(jù)來訓(xùn)練一個可用的模型,然后再來求識別結(jié)果。

同樣一個模型,同樣一套模型參數(shù),各個狀態(tài)轉(zhuǎn)化和映射概率都沒有變,我們把可觀察狀態(tài)換成語音識別的輸入波形(或者說是波形特征),把隱藏狀態(tài)換成語音識別的輸出(也就是文字結(jié)果),就會發(fā)現(xiàn)這個HMM用來做語音識別簡直太合適啦。

比如這里的例子,這樣三個連續(xù)的波形隱含的文字到底是“是十四”還是“四十四”,我們只需要分別把它們的概率算出來,哪個概率大我們就認(rèn)為是哪個結(jié)果。對于HMM模型未知的情況下,我們可以利用帶標(biāo)注的數(shù)據(jù)按照鮑姆-韋爾奇算法訓(xùn)練一個就可以了,足夠的數(shù)據(jù)就能訓(xùn)練出趨于完美的模型。

注意,這個例子中我們并沒有區(qū)分聲學(xué)模型和語言模型,而是將兩者放在一起抽象出來一個大的模型,將波形直接映射成文字,而省去類似拼音發(fā)音的中間結(jié)果。事實上HMM也的確是既可以做聲學(xué)模型,也可以做語言模型。

訊飛開放平臺語音識別

本節(jié)公開課說的我們平臺的語音識別是專指語音聽寫的功能,就是將語音轉(zhuǎn)化成文字的功能,而和識別相關(guān)的命令詞識別和語義理解,會在后面的課程中為大家講解。

個性化識別指的是語音識別系統(tǒng)具備自動學(xué)習(xí)并適應(yīng)用戶使用習(xí)慣的能力,你用的越多,它越懂你。

例如語言模型的個性化,我們可以將一些不容易識別的生僻的詞,比如人名地名等上傳到給我們云端,我們根據(jù)你上傳的信息有針對性的優(yōu)化你的語言模型,提高這些詞的識別率。后面會有視頻給大家演示這樣的效果。

目前我們訊飛的識別支持中文和英文,還支持中文的21種方言,其中粵語和四川話是免費開放就可以使用的,其他的方言需要通過商務(wù)合作后才能使用。

離線聽寫也是有的,在訊飛輸入法和訊飛語記app中都已經(jīng)使用了。大家要開發(fā)Android平臺的應(yīng)用可以借助語記APP提供離線聽寫能力,來讓你自己的應(yīng)用也具有離線聽寫的功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1773

    瀏覽量

    113880
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    普強信息入選2024語音識別技術(shù)公司TOP30榜單

    企業(yè)數(shù)字化升級,這一榮譽不僅體現(xiàn)了普強在語音交互、語義理解、多語種識別等核心技術(shù)上的領(lǐng)先優(yōu)勢,更是對普強自主研發(fā)的端到端語音
    的頭像 發(fā)表于 04-18 17:25 ?444次閱讀

    5G全網(wǎng)通工業(yè)平板電腦技術(shù)優(yōu)勢和多行業(yè)應(yīng)用

    岳冉全新5G工業(yè)平板電腦融合了高性能、高可靠性和高擴展性,更以其先進的技術(shù)優(yōu)勢成為行業(yè)應(yīng)用的新標(biāo)桿。設(shè)備支持一維/二維條碼掃描、RFID讀寫、身份證識別、指紋識別等多種功能選配。
    的頭像 發(fā)表于 03-06 09:56 ?279次閱讀

    語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用實例

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:12 ?558次閱讀

    詳解語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:05 ?672次閱讀
    詳解<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>在通信領(lǐng)域中的應(yīng)用

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專注智能語音交互領(lǐng)域多年,在語音識別語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標(biāo)貝與多個智能會議系統(tǒng)廠商合作,成功將語音
    的頭像 發(fā)表于 12-20 10:35 ?508次閱讀

    標(biāo)貝智能語音識別在智能會議場景中的落地案例

    標(biāo)貝科技專注智能語音交互領(lǐng)域多年,在語音識別語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標(biāo)貝與多個智能會議系統(tǒng)廠商合作,成功將語音
    的頭像 發(fā)表于 12-20 10:31 ?663次閱讀
    標(biāo)貝智能<b class='flag-5'>語音</b><b class='flag-5'>識別</b>在智能會議場景中的<b class='flag-5'>落地</b>案例

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別
    的頭像 發(fā)表于 11-26 09:21 ?1262次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來,隨著計算能力的提升和機器學(xué)習(xí)技術(shù)的進步,這項
    的頭像 發(fā)表于 11-26 09:20 ?1463次閱讀

    ASR語音識別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計算機科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個領(lǐng)域。
    的頭像 發(fā)表于 11-18 15:12 ?1841次閱讀

    HPLC智能電表有什么技術(shù)優(yōu)勢嗎?

    HPLC(高速電力線通信)智能電表作為一種先進的智能計量設(shè)備,憑借其獨特的技術(shù)優(yōu)勢,在電力管理領(lǐng)域得到了廣泛應(yīng)用。下面我們將詳細介紹HPLC智能電表的主要技術(shù)優(yōu)勢。1.高傳輸速率-高速數(shù)據(jù)傳輸
    的頭像 發(fā)表于 09-26 18:00 ?956次閱讀
    HPLC智能電表有什么<b class='flag-5'>技術(shù)優(yōu)勢</b>嗎?

    智能玩具用離線語音識別芯片有什么優(yōu)勢

    隨著科技的發(fā)展,很多智能電子產(chǎn)品和兒童玩具實現(xiàn)了與人類的交互,語音芯片在這些人機交互中起到了不可替代的作用,語音識別芯片在智能玩具中的應(yīng)用就
    的頭像 發(fā)表于 09-20 10:00 ?594次閱讀
    智能玩具用離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片有什么<b class='flag-5'>優(yōu)勢</b>

    碳化硅功率器件的技術(shù)優(yōu)勢

    優(yōu)勢,成為了電力電子領(lǐng)域的一顆璀璨新星。本文將深入探討碳化硅功率器件的物性特征、技術(shù)優(yōu)勢、應(yīng)用前景以及面臨的挑戰(zhàn)。
    的頭像 發(fā)表于 09-11 10:43 ?571次閱讀

    Transformer模型在語音識別語音生成中的應(yīng)用優(yōu)勢

    隨著人工智能技術(shù)的飛速發(fā)展語音識別語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其
    的頭像 發(fā)表于 07-03 18:24 ?1959次閱讀

    人工智能的語音識別技術(shù)詳解

    隨著科技的飛速發(fā)展,人工智能(AI)技術(shù)已經(jīng)滲透到我們生活的方方面面,其中語音識別技術(shù)作為AI領(lǐng)域的重要分支,更是以其獨特的魅力和廣泛的應(yīng)用
    的頭像 發(fā)表于 07-01 11:39 ?2355次閱讀

    國產(chǎn)隔離放大器:技術(shù)優(yōu)勢與應(yīng)用前景

    國產(chǎn)隔離放大器是一種重要的電子器件,廣泛應(yīng)用于工業(yè)控制、通信、醫(yī)療設(shè)備等領(lǐng)域。本文將分析國產(chǎn)隔離放大器的技術(shù)優(yōu)勢及應(yīng)用前景。
    的頭像 發(fā)表于 05-31 15:53 ?971次閱讀
    國產(chǎn)隔離放大器:<b class='flag-5'>技術(shù)優(yōu)勢</b>與應(yīng)用前景