回憶近年語(yǔ)音技術(shù)的發(fā)展歷程,早年主要談的是“合成”,再過(guò)些年開(kāi)始著重談“識(shí)別”,那時(shí)所謂語(yǔ)音技術(shù)的含義就是“識(shí)別+合成”。直到我們真正要把語(yǔ)音技術(shù)運(yùn)用到智能硬件上的時(shí)候才發(fā)現(xiàn),很多情景下光靠“識(shí)別+合成”已經(jīng)徹底不夠用了,我們開(kāi)始需要的是“人性化的”擁有交互智能的語(yǔ)音技術(shù)。
講到“人工智能”,所有的公司都在講一個(gè)字“腦”, 那么同樣都在說(shuō)“腦”,思必馳的智能語(yǔ)音和別人做的有什么不同呢?
大家都知道IBM的超級(jí)計(jì)算機(jī)“深藍(lán)”,它下棋可以贏國(guó)際象棋大師,但它只能算是一個(gè)計(jì)算機(jī)而不是一個(gè)機(jī)器人。因?yàn)閷?duì)一個(gè)機(jī)器人來(lái)說(shuō),單獨(dú)模塊的優(yōu)秀不是它的全部,它還要具備一個(gè)完整的從局部智能到整體智能的一整個(gè)人工智能系統(tǒng),才算是一個(gè)機(jī)器人。這也就是為什么我們做的東西叫“對(duì)話(huà)系統(tǒng)”,不叫“語(yǔ)音識(shí)別”。
思必馳的“人工智能技術(shù)”,不只擁有以上依“腦”而生的技術(shù)模塊,更重要的是,我們將這些模塊協(xié)調(diào)整合和聯(lián)合運(yùn)用,使其成為一整個(gè)“系統(tǒng)”,即“人工智能交互系統(tǒng)”。
我們面臨的技術(shù)挑戰(zhàn),大體上就這三類(lèi);首先要感知準(zhǔn)確,就是識(shí)別率要高;其次準(zhǔn)確理解用戶(hù)的意圖,給出正確的反饋;而后當(dāng)反饋發(fā)生錯(cuò)誤時(shí),可以糾正。
先從“感知”即語(yǔ)音識(shí)別率入手。在移動(dòng)互聯(lián)時(shí)代,我們有兩個(gè)非常重要的點(diǎn),可以極大的優(yōu)化我們的語(yǔ)音識(shí)別率。一塊是“大數(shù)據(jù)”,另一塊就是“深度學(xué)習(xí)”。
思必馳的人工智能語(yǔ)音系統(tǒng)經(jīng)過(guò)自?xún)?yōu)化的“深度學(xué)習(xí)”和大數(shù)據(jù)計(jì)算之后已經(jīng)被調(diào)教成國(guó)際上最好的語(yǔ)音識(shí)別技術(shù)之一,識(shí)別率已經(jīng)到了95%以上。其語(yǔ)音技術(shù)僅靠在單麥,和后臺(tái)算法支持情況下就可以做到國(guó)際一流的識(shí)別準(zhǔn)確率。在抗噪技術(shù)領(lǐng)域,思必馳的最新結(jié)構(gòu)化抗噪語(yǔ)音識(shí)別技術(shù)刷新了國(guó)際噪聲標(biāo)準(zhǔn)測(cè)試庫(kù)記錄,取得目前世界最好成績(jī)。模型算法的優(yōu)化突破,使思必馳僅用軟件就可以達(dá)到以往采用語(yǔ)音降噪芯片才能達(dá)到的效果,大幅提升了識(shí)別率,降低了成本。
在交互的大前提“感知”做好之后,個(gè)性化語(yǔ)音合成輸出也是近年來(lái)的一個(gè)“漸痛點(diǎn)”。思必馳拋棄了傳統(tǒng)語(yǔ)音采用的笨拙拼接合成技術(shù),而采用最新的基于統(tǒng)計(jì)的參數(shù)化語(yǔ)音合成方法,不僅實(shí)現(xiàn)了模型規(guī)模的大幅壓縮,縮小了語(yǔ)音文件的體積,語(yǔ)音連貫性的大幅提升,同時(shí)也允許更自由的個(gè)性化的語(yǔ)音訓(xùn)練。(目前思必馳已經(jīng)完成一些名人的聲音合成,基本能夠保證與真人語(yǔ)音相差無(wú)幾。)
“等周二許春來(lái)到蘇州后約他一點(diǎn)鐘在九寨溝喝茶”,究竟說(shuō)的是許春來(lái)到蘇州后請(qǐng)?jiān)S春去喝茶,還是這個(gè)人來(lái)了許春約他去喝茶。這對(duì)機(jī)器來(lái)講是一個(gè)不小的挑戰(zhàn)。語(yǔ)義的解析不等于語(yǔ)義的理解。我們?cè)趺唇鉀Q這個(gè)事?一次性的交互是很難的,我們認(rèn)為從鍵盤(pán)、鼠標(biāo)到麥克風(fēng)是不夠的,必須要有腦子去思考去判斷。很多情況下,由于識(shí)別一點(diǎn)點(diǎn)不準(zhǔn)確,后面的整個(gè)任務(wù)變得沒(méi)辦法完成。語(yǔ)音識(shí)別在硬件里面想要用,必須和后端某些東西結(jié)合在一起,就是我們說(shuō)的認(rèn)知技能。
達(dá)成認(rèn)知智能需要解決幾個(gè)方面的問(wèn)題,一個(gè)是靜態(tài)認(rèn)知,這一項(xiàng)我們已經(jīng)通過(guò)深度學(xué)習(xí)和大數(shù)據(jù)的運(yùn)算做的很好了。但是在現(xiàn)實(shí)場(chǎng)景下,即便擁有高識(shí)別度的靜態(tài)認(rèn)知也是不夠的,還需要會(huì)動(dòng)態(tài)認(rèn)知,即交互過(guò)程中,智能硬件能通過(guò)用戶(hù)不斷反饋來(lái)學(xué)習(xí),甚至主動(dòng)詢(xún)問(wèn),并最終完成任務(wù)。不僅如此,在動(dòng)態(tài)認(rèn)知的交互過(guò)程中,我們還要讓系統(tǒng)可打斷,在打斷時(shí)還可以做回聲消除,可以做部分理解,然后還可以在部分理解的基礎(chǔ)上多輪交互,并對(duì)信息進(jìn)行篩選理解。動(dòng)態(tài)認(rèn)知之后是進(jìn)化認(rèn)知,是讓系統(tǒng)能夠做到用得人越多,學(xué)得越好。
(發(fā)布會(huì)中演示的“語(yǔ)音糾正”功能,實(shí)錄)
思必馳已完成了一個(gè)真正可使用的系統(tǒng)級(jí)對(duì)話(huà)技術(shù)框架,一個(gè)真正具有認(rèn)知能力的人機(jī)交互界面,不只提升識(shí)別率,更實(shí)現(xiàn)了深度理解和智能反饋,以及支持任性語(yǔ)音輸入的對(duì)話(huà)交互架構(gòu),做到了真正的智能交互。我們相信,智能硬件時(shí)代已經(jīng)到來(lái),而感知層面的適配技術(shù)與認(rèn)知層面的對(duì)話(huà)技術(shù),則是人機(jī)交互的未來(lái)。
思必馳的目標(biāo)是希望能夠?qū)W⒂谥悄苷Z(yǔ)音交互技術(shù)的研發(fā),我們自己不做硬件,但是我們會(huì)支持,我們特別希望做的事情就是所謂的用戶(hù)體驗(yàn)的深度優(yōu)化和深度結(jié)合。我們希望通過(guò)用戶(hù)體驗(yàn)深度優(yōu)化,支持產(chǎn)業(yè)創(chuàng)新,最后希望和各位開(kāi)發(fā)者一起共同成長(zhǎng)。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7636瀏覽量
90248 -
人工智能
+關(guān)注
關(guān)注
1804文章
48773瀏覽量
246779 -
思必馳
+關(guān)注
關(guān)注
4文章
324瀏覽量
15117
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論