一、語音識別技術介紹
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。
二、語音識別的基本原理
系統本質上是一種模式識別系統,包括特征提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:
未知語音經過話筒變換成電信號后加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板。而計算機在識別過程中要根據語音識別的模型,將計算機中存放的語音模板與輸入的語音信號的特征進行比較,根據一定的搜索和匹配策略,找出一系列最優的與輸入語音匹配的模板。然后根據此模板的定義,通過查表就可以給出計算機的識別結果。顯然,這種最優的結果與特征的選擇、語音模型的好壞、模板是否準確都有直接的關系。
三、語音識別系統的分類
系統可以根據對輸入語音的限制加以分類。如果從說話者與識別系統的相關性考慮,可以將識別系統分為三類:(1)特定人語音識別系統。僅考慮對于專人的話音進行識別。(2)非特定人語音系統。識別的語音與人無關,通常要用大量不同人的語音數據庫對識別系統進行學習。(3)多人的識別系統。通常能識別一組人的語音,或者成為特定組語音識別系統,該系統僅要求對要識別的那組人的語音進行訓練。
如果從說話的方式考慮,也可以將識別系統分為三類:(1)孤立詞語音識別系統。孤立詞識別系統要求輸入每個詞后要停頓。(2)連接詞語音識別系統。連接詞輸入系統要求對每個詞都清楚發音,一些連音現象開始出現。(3)連續語音識別系統。連續語音輸入是自然流利的連續語音輸入,大量連音和變音會出現。
如果從識別系統的詞匯量大小考慮,也可以將識別系統分為三類:(1)小詞匯量語音識別系統。通常包括幾十個詞的語音識別系統。(2)中等詞匯量的語音識別系統。通常包括幾百個詞到上千個詞的識別系統。(3)大詞匯量語音識別系統。通常包括幾千到幾萬個詞的語音識別系統。隨著計算機與數字信號處理器運算能力以及識別系統精度的提高,識別系統根據詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統,將來可能就是小詞匯量的語音識別系統。這些不同的限制也確定了語音識別系統的困難度。
四、語音識別的應用
可以應用的領域大致分為大五類:
辦公室或商務系統。典型的應用包括:填寫數據表格、數據庫管理和控制、鍵盤功能增強等等。
制造業:在質量控制中,語音識別系統可以為制造過程提供一種“不用手”、“不用眼”的檢控(部件檢查)。
電信:相當廣泛的一類應用在撥號電話系統上都是可行的,包括話務員協助服務的自動化、國際國內遠程電子商務、語音呼叫分配、語音撥號、分類訂貨。
醫療:這方面的主要應用是由聲音來生成和編輯專業的醫療報告。
其他:包括由語音控制和操作的游戲和玩具、幫助殘疾人的語音識別系統、車輛行駛中一些非關鍵功能的語音控制,如車載交通路況控制系統、音響系統。
五、國內語音識別技術上市公司匯總
國內語音識別技術上市公司——科大訊飛
(股票代碼:002230)
科大訊飛股份有限公司成立于1999年,是一家專業從事智能語音及語言技術、人工智能技術研究,軟件及芯片產品開發,語音信息服務及電子政務系統集成的國家級骨干軟件企業。2008年,科大訊飛在深圳證券交易所掛牌上市,股票代碼:002230。
科大訊飛在智能語音核心技術研究領域,一直秉承“從市場中來、到市場中去”,“用正確的方法、做有用的研究”等核心理念,致力于建立智能語音及語言核心技術和核心技術應用產業化兩大方面的競爭力。科大訊飛的核心技術主要包括:語音識別技術、語音合成技術、自然語言理解技術、語音評測技術、聲紋語種技術、手寫識別技術等。科大訊飛始終堅持提供國際領先的語音及語言整體解決方案,不斷推出符合國家和社會需求的智能語音及語言技術產品及應用服務。
科大訊飛的主要核心技術介紹如下:
2017年11月22日,匯頂科技(603160)宣布獲得國家集成電路產業投資基金股份有限公司(以下簡稱大基金)的戰略投資。同時,公司控股股東張帆先生宣布,增持匯頂科技股份。其中,大基金通過協議轉讓方式受讓匯發國際持有的匯頂科技22,712,917股股票,受讓匯信投資持有的匯頂科技7,487,083股股票,共計受讓股份30,200,000股,持股比例6.65%;張帆先生通過上海證券交易所交易系統以大宗交易方式增持公司股份4,542,584股,增持比例1%。
全球人機交互及生物識別技術領導者:1)公司實際控制人張帆持持股48.3946%,擁有4家全資子公司匯芯科技、匯頂香港、匯頂美國、金慧通和1家控股子公司易易非凡。2)公司主營業務電容屏觸控芯片、指紋識別芯片和固定電話芯片,主要客戶為手機、平板電腦等智能終端廠商。4)公司主營業務始終保持高的產銷率,指紋識別芯片上升到80%多,電容屏觸控芯片、固定電話芯片始終保持在100%左右。
國內語音識別技術上市公司——匯頂科技
(股票代碼:603160)
匯頂科技成立于2002年,作為全球人機交互及生物識別技術領導者,目前已在包括手機、平板電腦和可穿戴產品等在內的智能移動終端領域構筑了領先優勢,先后推出全球領先的單層多點觸控芯片、全球首創的觸摸屏近場通信技術Goodix LinkTM、全球首家應用于Android手機正面的按壓式指紋識別芯片、全球首創的Invisible Fingerprint Sensor(IFSTM)、全球首創支持玻璃蓋板的指紋識別芯片、全球首創應用于移動終端的活體指紋檢測技術Live Finger DetectionTM、全球首創的顯示屏內指紋識別技術等。
其中,Live Finger DetectionTM憑借其卓越的創新應用價值斬獲了2017國際消費電子展(CES)全球創新金獎,這是匯頂科技繼2016年憑借IFSTM(觸控與指紋識別一體化技術)和Goodix LinkTM(觸摸屏近場通信技術)兩項技術獲得CES創新大獎后再次得到CES創新獎項,匯頂科技也由此成為首家榮獲CES全球創新金獎的中國IC設計公司。目前,產品和解決方案主要應用于華為、OPPO、vivo、小米、中興、魅族、聯想、金立、錘子、TCL、Nokia、Dell、HP、LG、ASUS、acer、 TOSHIBA、Panasonic等國際國內知名品牌,服務全球數億人群。
國內語音識別技術上市公司——漢王科技
(股票代碼:002362)
漢王科技股份有限公司成立于1998年,是全球文字識別技術與智能交互產品引領者,多年來,通過不斷自主創新,在手寫識別、光學字符識別(OCR)、筆跡輸入等領域擁有多項具有自主知識產權的核心技術,綜合技術水平在國內外均處于領先地位,手寫漢字識別獲得國家科技進步一等獎,OCR獲得國家科技進步二等獎。
漢王科技以核心技術為基礎,面向市場需求,已形成了以識別技術為核心的、針對不同細分市場的軟硬件產品系列,既有通用產品,如e典筆、漢王電紙書、漢王筆、文本王、名片通、繪圖板等,也有針對教育、金融等行業應用的文表識別解決方案;既有手寫手機、OCR等多種技術授權方案,也有輔助方案實施的硬件產品,如證照識別等。
國內語音識別技術上市公司——共達電聲
(股票代碼:002655)
山東共達電聲股份有限公司是專業的電聲元器件及電聲組件制造商、服務商和電聲技術整體解決方案提供商,是國家級高新技術企業、中國電子元件百強企業。
公司始創于2001年,自設立以來,堅持“共融、共創、共享、共達”的企業核心價值觀,秉承“和諧、超越、高效、求是”的企業精神,專注于電聲元器件產品的研發和制造,致力于成為世界一流的電聲技術整體解決方案提供商,主要產品包括微型麥克風、微型揚聲器/受話器及其陣列模組,廣泛應用于移動通訊設備及其周邊產品、筆記本電腦、平板電視、個人數碼產品、汽車電子等消費類電子產品領域。
國內語音識別技術上市公司——拓爾思
(股票代碼:300229)
拓爾思是一家技術驅動型企業,歷經二十余年的深耕和積累,在中文檢索、自然語言處理等領域始終處于行業前沿,公司2011年在深交所創業板上市,股票代碼300229,是第一家在A股上市的大數據技術企業。拓爾思以大數據+人工智能為發展戰略,旨在幫助客戶實現從數據洞察到智慧決策的飛躍。
拓爾思的核心業務包括軟件產品研發,行業應用解決方案和數據分析挖掘云服務三大板塊,涉及大數據管理、信息安全、互聯網營銷和人工智能等應用方向。
拓爾思是自主可靠軟件產品領域的領軍企業,TRS中文全文檢索系統、WCM內容管理平臺、CKM中文文本挖掘等軟件均代表了國內相關領域自主創新的最高水平。同時拓爾思不斷拓寬產品線和綜合服務能力,為政府、媒體、安全、金融等多個行業提供領先的產品、技術和解決方案。為了迎接云計算時代的來臨,公司近年來加快了基于云服務的數據分析和知識服務的發展步伐,旨在實現軟件企業的戰略轉型和升級。
國內語音識別技術上市公司——精倫電子
(股票代碼:600355)
精倫電子股份有限公司是“武漢·中國光谷”國家級高新技術企業,成立于1994年,于2002年上市,是中國首家以全自然人作為發起人的上市公司,注冊資本24,604.46萬元,股票代碼:600355。現有精倫工業園位于武漢總部,占地310畝。
精倫電子致力于各類電子智能終端的研發、設計與生產。目前公司主營產品包括:電子廣告媒體終端;電子伺服系統終端;二代身份證閱讀終端;電子交易終端;電力終端;家庭媒體娛樂終端;導航定位終端等。涵蓋了:通訊、電力、傳媒、三網融合、工業縫紉制造、公共安全等多個領域。并提供各類產品的服務平臺、系統及整體設計、運營方案。
精倫電子一直秉承自主知識產權和核心技術為基礎的理念,每年投入銷售利潤的較大部分作為研發投入,與華中科技大學、上海浦東等地建立合作研發基地。擁有國家人事部批準的博士后科研工作站,在嵌入式操作系統、嵌入式硬件設計、嵌入式軟件設計、音頻視頻信號處理、智能卡應用技術、大型數據庫應用設計、網絡信息安全設計技術等方面形成了自主核心技術體系。承建了多項國家高技術實施項目。公司正在逐步成為業界領先的智能終端研發與設計基地。
六、語音識別技術現狀
我國語音識別研究工作起步于五十年代,但近年來發展很快。研究水平也從實驗室逐步走向實用。從1987年開始執行國家863計劃后,國家863智能計算機專家組為語音識別技術研究專門立項,每兩年滾動一次。我國語音識別技術的研究水平已經基本上與國外同步,在漢語語音識別技術上還有自己的特點與優勢,并達到國際先進水平。中科院自動化所、聲學所、清華大學、北京大學、哈爾濱工業大學、上海交通大學、中國科技大學、北京郵電大學、華中科技大學等科研機構都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學電子工程系語音技術與專用芯片設計課題組,研發的非特定人漢語數碼串連續語音識別系統的識別精度,達到94.8%(不定長數字串)和96.8%(定長數字串)。在有5%的拒識率情況下,系統識別率可以達到96.9%(不定長數字串)和98.7%(定長數字串),這是目前國際最好的識別結果之一,其性能已經接近實用水平。研發的5000詞郵包校核非特定人連續語音識別系統的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川話兩種語言,達到實用要求。
中科院自動化所及其所屬模式科技(Pattek)公司2002年發布了他們共同推出的面向不同計算平臺和應用的“天語”中文語音系列產品——PattekASR,結束了中文語音識別產品自1998年以來一直由國外公司壟斷的歷史。
評論