特別是智能音箱,最近兩年來(lái)發(fā)展迅猛,幾乎所有主流企業(yè)都是入局者,如華為音箱、小米音箱、騰訊音箱等等,因大企業(yè)的入局,讓國(guó)內(nèi)智能音箱領(lǐng)域競(jìng)爭(zhēng)更加殘酷。
或許北京聲智科技有限公司(以下簡(jiǎn)稱:聲智)會(huì)是一匹黑馬,因?yàn)槭忻嫔洗蠖鄶?shù)智能音箱,如小米、華為、騰訊等出品的智能音箱幾乎都是采用聲智的遠(yuǎn)程語(yǔ)音交互方案。
聲智戰(zhàn)略合伙人/副總裁李智勇說(shuō):“聲智的強(qiáng)項(xiàng)在于遠(yuǎn)場(chǎng)語(yǔ)音交互能力,這也是華為、小米等與我們合作的原因,凡是和遠(yuǎn)場(chǎng)語(yǔ)音交互相關(guān)的部分,我們都是做的比較好的。”
對(duì)國(guó)內(nèi)機(jī)器人企業(yè)而言,聲智專業(yè)的遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)或許可以提升機(jī)器人語(yǔ)音交互能力,特別是在復(fù)雜的商業(yè)場(chǎng)景里,語(yǔ)音交互可以得到更好的優(yōu)化。
1號(hào)機(jī)器人網(wǎng)記者:聲智有豐富的應(yīng)用案例基礎(chǔ),你們的核心技術(shù)是體現(xiàn)在哪些方面?
李智勇:為了實(shí)現(xiàn)智能音箱的一次交互,核心技術(shù)有5點(diǎn):
第一點(diǎn)是遠(yuǎn)場(chǎng)語(yǔ)音喚醒;第二點(diǎn)是麥克風(fēng)陣列;第三點(diǎn)是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別;第四點(diǎn)是我們經(jīng)常講的自然語(yǔ)言處理;第五點(diǎn)是語(yǔ)音合成和TTS。這五個(gè)流程是每次交互都會(huì)用到,另外就是輔助的一些技術(shù)點(diǎn)。
比如經(jīng)常說(shuō)的聲紋識(shí)別,你要區(qū)分每個(gè)講話的人是誰(shuí)?通話時(shí)通話的質(zhì)量高不高?等等還要根據(jù)不同使用場(chǎng)景來(lái)進(jìn)行優(yōu)化不同的技術(shù)和算法。
凡是和遠(yuǎn)場(chǎng)語(yǔ)音交互相關(guān)的部分,我們都是做的比較好的,現(xiàn)在市面上的主流智能音箱產(chǎn)品都是用我們的方案,如華為音箱、小米音箱、騰訊音箱等等。
另外,我們把各種復(fù)雜的技術(shù)整合在一套系統(tǒng)里,自主研發(fā)了遠(yuǎn)場(chǎng)智能交互系統(tǒng)SoundAI Azero,這樣對(duì)產(chǎn)品方而言,就更加省事。產(chǎn)品方只需要注重產(chǎn)品其它部分的開(kāi)發(fā),如燈、按鍵等,然后搭載我們的SoundAI Azero系統(tǒng)就可以出產(chǎn)品了。對(duì)產(chǎn)品企業(yè)而言,與我們合作,可以大大節(jié)省產(chǎn)品開(kāi)發(fā)的周期。
1號(hào)機(jī)器人網(wǎng)記者:要想得到完美的語(yǔ)音識(shí)別產(chǎn)品,需要經(jīng)過(guò)多長(zhǎng)的時(shí)間訓(xùn)練?一般語(yǔ)音識(shí)別的訓(xùn)練過(guò)程是怎樣?
李智勇:語(yǔ)音識(shí)別訓(xùn)練與通常進(jìn)行深度學(xué)習(xí)訓(xùn)練是一樣的,首先有相應(yīng)的數(shù)據(jù)進(jìn)行標(biāo)注,然后調(diào)一些參數(shù)進(jìn)行訓(xùn)練,接下來(lái)看效果再進(jìn)一步調(diào)優(yōu)。
核心驅(qū)動(dòng)點(diǎn)有兩個(gè),一個(gè)不是訓(xùn)練本身的時(shí)間,關(guān)鍵是數(shù)據(jù),到底有多少數(shù)據(jù)?標(biāo)注精不精準(zhǔn)?另一個(gè)是訓(xùn)練本身,越往后發(fā)展,語(yǔ)音識(shí)別不能說(shuō)只做一套識(shí)別就能適用所有。真正能做到的是,在特定領(lǐng)域,數(shù)據(jù)影響權(quán)重,變得比模型權(quán)重更大一些。
1號(hào)機(jī)器人網(wǎng)記者:可否介紹一下你們的麥克風(fēng)陣列芯片?你們花了多久的時(shí)間進(jìn)行研發(fā)?這片芯片都集成了哪些技術(shù)?
李智勇:這不是大家經(jīng)常說(shuō)的芯片,我們研發(fā)這款芯片是AI聲學(xué)芯片,主要目的是讓市面上已有的產(chǎn)品可接入麥克風(fēng)陣列。
如市面上已有的電視機(jī),很多不支持麥克風(fēng)陣列,現(xiàn)在有了這片芯片后,可以很容易支持麥克風(fēng)陣列。
隨著物聯(lián)網(wǎng)時(shí)代的到來(lái),市面上很多IOT設(shè)備都會(huì)需要智能交互產(chǎn)品,而我們的芯片就是支撐已有產(chǎn)品很容易接入我們的遠(yuǎn)場(chǎng)語(yǔ)音交互系統(tǒng)SoundAI Azero。
1號(hào)機(jī)器人網(wǎng)記者:看官網(wǎng)介紹,你們的案例客戶有百度、騰訊、阿里、小米、華為等等,你們?yōu)樗麄兲峁┑氖窃鯓拥慕鉀Q方案?它們的產(chǎn)品相互之間會(huì)存在差異嗎?
李智勇:這些主流的產(chǎn)品,很多都是遠(yuǎn)場(chǎng)語(yǔ)音交互的設(shè)備,而我們的技術(shù)核心就體現(xiàn)在遠(yuǎn)場(chǎng)語(yǔ)音交互上,如遠(yuǎn)場(chǎng)語(yǔ)音喚醒、遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別等。
不同客戶,它的產(chǎn)品側(cè)重點(diǎn)和特色不同,比如說(shuō)華為音箱,它把通話的功能也加進(jìn)來(lái)了,這是原來(lái)智能音箱所不具備的。還如騰訊王者榮耀機(jī)器人,從ID到整個(gè)產(chǎn)品的思路和通常的智能音箱也不同,所以它們產(chǎn)品相互之間還是存在差異的。
1號(hào)機(jī)器人網(wǎng)記者:現(xiàn)在市面上的兒童機(jī)器人種類繁多,針對(duì)兒童機(jī)器人,你們可以提供怎樣的解決方案?
李智勇:兒童機(jī)器人也是分兩部分:一部分是產(chǎn)品本身,如喚醒、降噪、麥克風(fēng)陣列等,語(yǔ)音交互能力跟智能音箱是相通的。我們?cè)谥悄芤粝漕I(lǐng)域的經(jīng)驗(yàn)可以移植到兒童機(jī)器人領(lǐng)域;另一部分是相比智能音箱,兒童機(jī)器人搭載的內(nèi)容是不一樣的。
我們?cè)趦和瘷C(jī)器人領(lǐng)域也有內(nèi)容服務(wù)資源,我們與第三方企業(yè)合作,把內(nèi)容服務(wù)接入到我們Sound Azero系統(tǒng)中來(lái),現(xiàn)在在兒童機(jī)器人領(lǐng)域,我們可以提供一套比較完整的方案。
假設(shè)兒童機(jī)器人廠商,用我們的遠(yuǎn)場(chǎng)智能交互系統(tǒng)SoundAI Azero,他只需要選擇一個(gè)喚醒詞,再做一些基礎(chǔ)的集成工作就可以了。比如針對(duì)具體的場(chǎng)景做一些技能的調(diào)整,再把你自己特別想輸出的內(nèi)容,接到系統(tǒng)里就可以了。我們可以提供部分兒童內(nèi)容,但是更多技能端的擴(kuò)展內(nèi)容,兒童機(jī)器人企業(yè)也可以自己去尋找。
1號(hào)機(jī)器人網(wǎng)記者:目前已有不少大型商用機(jī)器人已經(jīng)落地到政務(wù)系統(tǒng),如深圳出入境就有一臺(tái)機(jī)器人在服務(wù),但是從現(xiàn)場(chǎng)體驗(yàn)來(lái)看,語(yǔ)音交互不是很理想,在商業(yè)噪雜的環(huán)境下,你們可以提供怎樣的解決方案?
李智勇:目前語(yǔ)音交互有兩個(gè)一大一小的瓶頸,大的瓶頸也是NLP當(dāng)前的技術(shù)瓶頸,目前語(yǔ)音識(shí)別沒(méi)辦法達(dá)到100%的準(zhǔn)確率;另外一個(gè)小的瓶頸就是在復(fù)雜環(huán)境下的遠(yuǎn)場(chǎng)降噪處理。
因?yàn)槊考夜旧瞄L(zhǎng)的地方不一樣,而遠(yuǎn)場(chǎng)語(yǔ)音交互是我們擅長(zhǎng)的,雖然,我們還沒(méi)有與商業(yè)機(jī)器人合作過(guò),但是從我們的角度去看,語(yǔ)音交互是可以優(yōu)化的。
因?yàn)樵谏虉?chǎng)里,我們能解決智能音箱交互問(wèn)題,如果是商業(yè)機(jī)器人,就需要機(jī)器人企業(yè)與我們聯(lián)動(dòng)配合優(yōu)化,當(dāng)然,經(jīng)過(guò)一定周期的優(yōu)化過(guò)程,我們可以提升商業(yè)機(jī)器人在復(fù)雜環(huán)境中的語(yǔ)音交互能力,甚至提升一個(gè)量級(jí)。
1號(hào)機(jī)器人網(wǎng)記者:就語(yǔ)音技術(shù)來(lái)講,目前中國(guó)與西方國(guó)家是否存在技術(shù)差距?如果相互對(duì)比,西方技術(shù)的優(yōu)勢(shì)體現(xiàn)在哪里?國(guó)內(nèi)的企業(yè)技術(shù)優(yōu)勢(shì)又體現(xiàn)在哪里?
李智勇:從技術(shù)上講,目前中西方語(yǔ)音交互整體技術(shù)并沒(méi)有太大的差距,大家基本處于同一個(gè)水平線。當(dāng)然,類似亞馬遜等公司在語(yǔ)音識(shí)別領(lǐng)域精耕很長(zhǎng)時(shí)間,所以體驗(yàn)感會(huì)略好一些。
產(chǎn)品體驗(yàn)感并不是技術(shù)好了,體驗(yàn)就好了,它涉及很多的因素,如產(chǎn)品結(jié)構(gòu)設(shè)計(jì)、響應(yīng)速度、內(nèi)容多少等等,這個(gè)是需要時(shí)間打磨的,國(guó)內(nèi)很多語(yǔ)音企業(yè)都是2017年才出產(chǎn)品,發(fā)展也就兩年時(shí)間。
其實(shí)中西方語(yǔ)音企業(yè)是可以互補(bǔ)的,比如中文領(lǐng)域,國(guó)內(nèi)語(yǔ)音企業(yè)普遍做的比西方企業(yè)好,因?yàn)橹袊?guó)有大量語(yǔ)料、大量的數(shù)據(jù),這是西方所不能比擬的。但是西方企業(yè)在英文領(lǐng)域精耕的很好,這是目前國(guó)內(nèi)語(yǔ)音企業(yè)薄弱的地方。
1號(hào)機(jī)器人網(wǎng)記者:最后一個(gè)問(wèn)題,從市場(chǎng)拓展的角度去講,目前你們的業(yè)務(wù)重心是放在哪幾個(gè)領(lǐng)域?你們是如何看待機(jī)器人這個(gè)市場(chǎng)?
李智勇:目前AIoT場(chǎng)景是很熱門,而且跑的也很快,各種品類都在崛起,如:電視、機(jī)頂盒、兒童機(jī)器人和故事機(jī)、汽車車聯(lián)網(wǎng)前裝后裝、白色家電等等,對(duì)我們來(lái)說(shuō),當(dāng)前首先是智能音箱,屬于成長(zhǎng)最快的領(lǐng)域。
另外,從智能音箱延伸到其它產(chǎn)品,對(duì)我們來(lái)講,場(chǎng)景遷移的成本并沒(méi)有想象中的大,如延伸汽車領(lǐng)域、電視領(lǐng)域等等,我們目標(biāo)是覆蓋主流的通用產(chǎn)品領(lǐng)域,然后通過(guò)不同的技能來(lái)實(shí)現(xiàn)不同場(chǎng)景下不同的產(chǎn)品應(yīng)用去解決客戶的疑難雜癥。
對(duì)于機(jī)器人,從技術(shù)視角和商業(yè)視角去講:技術(shù)視角,機(jī)器人是眾多技術(shù)的融合結(jié)晶,人工智能技術(shù)越成熟,機(jī)器人最終落地也會(huì)更完美;從商業(yè)視角來(lái)講,現(xiàn)階段機(jī)器人需要往更多垂直領(lǐng)域去精耕,因?yàn)橥ㄓ脵C(jī)器人屬于未來(lái)的產(chǎn)品,目前暫不適合。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2927文章
45817瀏覽量
387384 -
語(yǔ)音交互
+關(guān)注
關(guān)注
3文章
303瀏覽量
28467
原文標(biāo)題:聲智:物聯(lián)網(wǎng)時(shí)代 語(yǔ)音交互將成IOT設(shè)備入口
文章出處:【微信號(hào):robot-1hjqr,微信公眾號(hào):1號(hào)機(jī)器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
芯資訊|廣州唯創(chuàng)電子WTV系列語(yǔ)音芯片:以技術(shù)創(chuàng)新賦能智能語(yǔ)音交互

芯資訊|WT2605C藍(lán)牙語(yǔ)音芯片:AI對(duì)話大模型賦能的智能交互新引擎

Nordic nRF54 系列芯片:開(kāi)啟 AI 與物聯(lián)網(wǎng)新時(shí)代?
WT3000T8-32N語(yǔ)音合成TTS芯片:小體積、強(qiáng)性能,重塑智能語(yǔ)音交互體驗(yàn)

【智能語(yǔ)音交互新標(biāo)桿】WTK6900HC語(yǔ)音識(shí)別芯片:重新定義離線語(yǔ)音控制體驗(yàn)

宇樹科技在物聯(lián)網(wǎng)方面
物聯(lián)網(wǎng)就業(yè)有哪些高薪崗位?
解鎖個(gè)性化語(yǔ)音交互新時(shí)代:九芯智能語(yǔ)音云平臺(tái),讓創(chuàng)意聲音觸手可及!

物聯(lián)網(wǎng)(IoT)智能設(shè)備是什么?

基于智能語(yǔ)音交互的智能呼叫中心工作機(jī)制

物聯(lián)網(wǎng)學(xué)習(xí)路線來(lái)啦!
【實(shí)操文檔】在智能硬件的大模型語(yǔ)音交互流程中接入RAG知識(shí)庫(kù)
MQTT智能網(wǎng)關(guān)接入物聯(lián)網(wǎng)平臺(tái):實(shí)現(xiàn)高效連接與數(shù)據(jù)交互
物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語(yǔ)音識(shí)別方案_離線語(yǔ)音識(shí)別芯片分析

物聯(lián)網(wǎng)系統(tǒng)中音頻方案的“大腦”_語(yǔ)音芯片

評(píng)論