說到聲音,你會想到什么?是人講話的聲音、汽車發(fā)動機(jī)啟動時(shí)發(fā)出的轟鳴聲,還是手指敲擊鍵盤的陣陣窸窣聲?每天縈繞于人耳的聲音其實(shí)是包羅萬象的,有關(guān)聲音的學(xué)問也與人工智能領(lǐng)域有著密不可分的關(guān)系。
“人耳能聽到的聲音大體上可以為幾種。”北科瑞聲科技股份有限公司副總經(jīng)理黃石磊告訴《中國電子報(bào)》記者,“第一類聲音是人們?nèi)粘Uf話的聲音,即語音;第二類是音樂;第三類聲音分別是自然界、城市生產(chǎn)生活中產(chǎn)生的聲音。這三者我們通常也稱為廣義的音頻。”所有的聲音都蘊(yùn)藏著“智慧”的要義,智能系統(tǒng)通過機(jī)器感知技術(shù)可以實(shí)現(xiàn)聲音采集、識別和理解等信息處理,也可以利用更加復(fù)雜的技術(shù)進(jìn)行分析,最終實(shí)現(xiàn)人機(jī)對話、智能判析和決策。作為人工智能產(chǎn)業(yè)鏈的重要細(xì)分領(lǐng)域之一,智能音頻處理也因此有了賦能千行百業(yè)的力量。
智能語音技術(shù)大有可為
現(xiàn)階段,我們正處在一個(gè)信息爆炸的時(shí)代,每個(gè)行業(yè)的發(fā)展都會產(chǎn)生海量的信息。正是這些浩如煙海的信息,構(gòu)成了非常專業(yè)和復(fù)雜的系統(tǒng)。要想在這個(gè)復(fù)雜的系統(tǒng)下將業(yè)務(wù)流程做到標(biāo)準(zhǔn)化和規(guī)范化,智能語音的應(yīng)用就顯得尤為關(guān)鍵。
“語音是人們一種最自然的交互方式,它有非接觸、可穿透等特性。”北科瑞聲科技股份有限公司總經(jīng)理助理汪雪說,“基于它的特性,語音是賦能傳統(tǒng)行業(yè)最好的方式之一。”
汪雪表示,智能語音的應(yīng)用十分自然,可以賦能非常多的應(yīng)用場景。在看到智能語音市場中存在的發(fā)展機(jī)遇后,北科瑞聲選擇了智能音頻賽道,專注于人工智能語音音頻信息處理,目前已成為國內(nèi)擁有全鏈條語音技術(shù)的人工智能企業(yè)。
與國外的Nuance、谷歌、蘋果、微軟和國內(nèi)的科大訊飛、百度、小i機(jī)器人等眾多擁有全棧技術(shù)的智能語音企業(yè)不同,北科瑞聲對垂直領(lǐng)域進(jìn)行了定制化研發(fā),更多專注于與特定行業(yè)結(jié)合的智能語音技術(shù),產(chǎn)品應(yīng)用也面向醫(yī)療、政務(wù)和交通等特定行業(yè)。黃石磊以醫(yī)療行業(yè)為例向記者表示,運(yùn)用智能語音技術(shù)可以讓每位醫(yī)務(wù)工作者都擁有一個(gè)自動化語音小助手,這個(gè)語音小助手能夠聽懂他講話,并在必要時(shí)給他提供幫助。
“各行業(yè)業(yè)務(wù)流程的信息化和規(guī)范化會涉及很多重復(fù)的工作,而通過智能化的手段可以自動完成這些重復(fù)的工作。”黃石磊對記者說,“這能夠大大提升專業(yè)工作人員的效率。”
例如在醫(yī)療信息化應(yīng)用中,目前北科瑞聲正在布局的醫(yī)療行業(yè)面臨真實(shí)環(huán)境帶來的難題。黃石磊談道,除了人發(fā)出的聲音以外,周圍環(huán)境的人和各種設(shè)備都會產(chǎn)生聲音。他表示,當(dāng)這些聲音混在一起,就會讓人們關(guān)注的聲音難以被處理。“醫(yī)院中的環(huán)境是非常嘈雜的,(在這種情況下進(jìn)行語音處理)其實(shí)是對現(xiàn)有技術(shù)的一大考驗(yàn)。”黃石磊說。
又比如,當(dāng)前信息化建設(shè)的提速也讓工業(yè)互聯(lián)網(wǎng)屢次成為業(yè)內(nèi)關(guān)注的焦點(diǎn)。在采訪過程中,黃石磊特別強(qiáng)調(diào)了智能音頻在工業(yè)互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用情況。他表示,工業(yè)互聯(lián)網(wǎng)涉及包括音頻處理在內(nèi)的信號處理技術(shù),基于語音的人機(jī)交互可以應(yīng)用于人和設(shè)備的交互過程中,還可以在針對非語音實(shí)現(xiàn)從智能語音到智能音頻的擴(kuò)展。但是目前,工業(yè)領(lǐng)域是一個(gè)充滿噪聲、混響、回聲等相對復(fù)雜因素的場景,智能語音、只能音頻技術(shù)在工業(yè)領(lǐng)域的賦能效果尚不明顯,落地場景也有待拓寬。很多企業(yè)礙于高成本和低收益,智能化轉(zhuǎn)型動力不足。作為行業(yè)伙伴的賦能者,北科瑞聲將對該領(lǐng)域進(jìn)行更為深入的布局。
共性挑戰(zhàn)亟待突破
不同的應(yīng)用場景會產(chǎn)生不同的數(shù)據(jù)和需求,比如在語音識別等場景中,用戶的需求正在不斷涌現(xiàn)、提升。然而,很多的智能音頻處理產(chǎn)品的應(yīng)用和功能仍具有一定邊界,只能在理想的環(huán)境條件中發(fā)揮作用。
智能音頻處理行業(yè)的發(fā)展一波三折,在整個(gè)行業(yè)的發(fā)展過程中,深耕垂直領(lǐng)域和特定行業(yè)的北科瑞聲也遇到了很多企業(yè)都在面臨的共性挑戰(zhàn)。在黃石磊看來,第一個(gè)挑戰(zhàn)就來源于不同行業(yè)間的行業(yè)知識的壁壘。每一個(gè)行業(yè)都有自己獨(dú)特的符號體系和術(shù)語體系。對智能語音產(chǎn)品來講,要想游刃有余地在不同行業(yè)中理解并識別各種紛繁復(fù)雜的音頻信息,是比較困難的一件事。“就像人一樣,當(dāng)我們從一個(gè)行業(yè)跑到另一個(gè)行業(yè),我們也會發(fā)現(xiàn)自己完全聽不懂或者不理解新行業(yè)中的一些術(shù)語。”黃石磊對記者說。
第二個(gè)挑戰(zhàn)在于目前機(jī)器與人對語音語言理解的能力差異。黃石磊表示,人類具備抽象表達(dá)的能力,也具備察言觀色的能力。人類的語言會涉及一些隱含的意思和抽象的表達(dá),但機(jī)器在這些方面還遠(yuǎn)遠(yuǎn)達(dá)不到人類理解能力。
最后一個(gè)挑戰(zhàn)來自于數(shù)據(jù)的獲取,這也是“先有雞還是先有蛋”的問題。黃石磊說,發(fā)展智能音頻處理行業(yè)需要先獲得語音數(shù)據(jù),但通常只有進(jìn)入到這個(gè)行業(yè)中并得到用戶認(rèn)可后才能獲得數(shù)據(jù)。“理想情況下,還是應(yīng)該先獲得數(shù)據(jù)。”他說,“從商業(yè)模式和技術(shù)的角度來看,(數(shù)據(jù)的獲取)是一個(gè)挑戰(zhàn)。”
針對如何克服這些困難,黃石磊也給出了自己的建議。他認(rèn)為,從公司的角度來講,還是應(yīng)該專注于核心技術(shù)的研發(fā),比如在核心技術(shù)能力方面提供一些具體的產(chǎn)品形態(tài)。此外,他還特別提到要找一些已經(jīng)在行業(yè)深耕的合作伙伴,進(jìn)行協(xié)同發(fā)展。
就像站在巨人的肩膀上可以看得更遠(yuǎn),與合作伙伴的配合也可以加速公司對智能音頻對各個(gè)行業(yè)的理解。由于在整個(gè)行業(yè)中扮演的是一個(gè)“被集成者”的角色,北科瑞聲在尋找行業(yè)合作伙伴時(shí)相對而言更具優(yōu)勢。黃石磊表示,合作伙伴在某些領(lǐng)域有一定技術(shù)和客戶基礎(chǔ),公司可以借助合作伙伴已有的基礎(chǔ),更快地融入到行業(yè)中去,為行業(yè)客戶提升價(jià)值,最終實(shí)現(xiàn)行業(yè)客戶、行業(yè)產(chǎn)品提供方和公司的三方共贏。
責(zé)任編輯:lq
-
自動化
+關(guān)注
關(guān)注
29文章
5742瀏覽量
81632 -
人工智能
+關(guān)注
關(guān)注
1804文章
48708瀏覽量
246492 -
智能語音
+關(guān)注
關(guān)注
11文章
797瀏覽量
49383
原文標(biāo)題:北科瑞聲:智能音頻提升空間巨大
文章出處:【微信號:MEMSensor,微信公眾號:MEMS】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
藍(lán)牙語音遙控器:智能家居的智慧控制核心
智能收銀語音交互新標(biāo)桿—WT3000T8語音合成芯片TTS技術(shù)應(yīng)用解析

輕量化、低功耗,邊緣計(jì)算芯片在儲能中大有可為
【「嵌入式系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)」閱讀體驗(yàn)】+ 基于語音識別的智能杯墊
芯和半導(dǎo)體:國產(chǎn)EDA大有可為
基于語音識別的智能會議系統(tǒng)具備哪些交互功能
智能語音的驅(qū)動力:揭秘8腳語音芯片在智能設(shè)備中的非凡角色
低空經(jīng)濟(jì)時(shí)代來臨,激光技術(shù)如何借東風(fēng)?

ASR語音識別技術(shù)應(yīng)用
COB超微小間距LED顯示屏是什么,它的性價(jià)比怎么樣,市場大有可為

電科金倉:數(shù)智未來,國產(chǎn)數(shù)據(jù)庫大有可為

人工智能的語音識別技術(shù)詳解
STM32如何詮釋電機(jī)控制創(chuàng)新 如何更高效更智能

評論