由B12、觀數(shù)·涂子沛頻道主辦,智東西、良倉(cāng)加速器、騰訊大浙網(wǎng)、創(chuàng)享基金聯(lián)合主辦的第二屆萬(wàn)物互聯(lián)創(chuàng)新大會(huì)「創(chuàng)業(yè)下一潮水:大數(shù)據(jù)與智能時(shí)代」在杭州召開(kāi)。本次大會(huì)邀請(qǐng)國(guó)內(nèi)外的尖端大腦,用一場(chǎng)盛大的跨界聚會(huì),帶你突破人類(lèi)延伸的極限,探索人工智能的未來(lái),創(chuàng)造腦洞大開(kāi)的生產(chǎn)力。
圖1 思必馳VP雷雄國(guó)演講現(xiàn)場(chǎng)
你一定有所意識(shí),人工智能的應(yīng)用已經(jīng)逐漸滲透到生活的方方面面,并開(kāi)始影響、改變?nèi)藗兊母鞣N習(xí)慣。在人工智能覆蓋的眾多應(yīng)用里,語(yǔ)音識(shí)別無(wú)疑是最接地氣也是落地最快的,例如,語(yǔ)音助手已經(jīng)成為了智能手機(jī)的標(biāo)配。
不過(guò),語(yǔ)音識(shí)別的下一個(gè)戰(zhàn)場(chǎng)并不是智能手機(jī)行業(yè),國(guó)內(nèi)外企業(yè)已經(jīng)紛紛把目光投向了市場(chǎng)空間更大的物聯(lián)網(wǎng)領(lǐng)域,這是語(yǔ)音識(shí)別乃至人工智能領(lǐng)域的一個(gè)最新的動(dòng)向。在昨天的第二屆萬(wàn)物互聯(lián)創(chuàng)新大會(huì)上,思必馳副總裁雷雄國(guó)分享了語(yǔ)音識(shí)別公司的下一個(gè)突破口以及面臨的挑戰(zhàn)。
語(yǔ)音識(shí)別將成為萬(wàn)億級(jí)的物聯(lián)網(wǎng)設(shè)備的標(biāo)配
其實(shí)上午有聊到很多的例子,訊飛聽(tīng)見(jiàn)的語(yǔ)音識(shí)別其實(shí)已經(jīng)達(dá)到一個(gè)很高的水平。怎么樣才能讓未來(lái)機(jī)器為人服務(wù),能夠幫人完成任務(wù)這件事情,事實(shí)上還有很長(zhǎng)的路要走。我們回頭來(lái)看互聯(lián)網(wǎng)以及交互方式的發(fā)展,能夠看到一個(gè)比較清晰的脈絡(luò)。
我們已經(jīng)完成了從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)的跨越,下一個(gè)階段將是物聯(lián)網(wǎng)(IoT),而在這個(gè)發(fā)展過(guò)程中,用戶(hù)數(shù)基數(shù)是呈倍數(shù)增長(zhǎng)的。雷雄國(guó)認(rèn)為,圍繞硬件形態(tài)以及聯(lián)網(wǎng)的形態(tài),在上述轉(zhuǎn)變過(guò)程中,交互模式也在不斷的發(fā)生變化。
傳統(tǒng)的PC端,無(wú)外乎網(wǎng)頁(yè)的搜索,文字形的。再到手機(jī)端是通過(guò)觸屏的方式,甚至有一些帶語(yǔ)音交互的APP,甚至包括手機(jī)自帶的一些語(yǔ)音服務(wù),都逐步從實(shí)驗(yàn)室走向大眾消費(fèi)者。舉個(gè)例子,蘋(píng)果早在iPhone 4s上就加入了語(yǔ)音工具siri,在此之后,siri在每一代iPhone中都有質(zhì)的提升。從最開(kāi)始命令式的控制,到最后聊天式,再到現(xiàn)在蘋(píng)果未來(lái)大的方向,它真正能夠達(dá)到一個(gè)助理、個(gè)人秘書(shū)的產(chǎn)品發(fā)展方向。
不過(guò),智能手機(jī)市場(chǎng)已經(jīng)遇到了天花板,語(yǔ)音識(shí)別公司也必須做出戰(zhàn)略上的改變。那么手機(jī)之后,還有什么設(shè)備會(huì)集成語(yǔ)音識(shí)別的功能呢?
雷雄國(guó)給出的答案是所有物聯(lián)網(wǎng)設(shè)備,小至智能音響,大到汽車(chē)、風(fēng)力發(fā)電機(jī),這些設(shè)備的交互方式都會(huì)因語(yǔ)音識(shí)別在未來(lái)得到改變。而這樣的改變也是必然趨勢(shì),“因?yàn)樗赡軟](méi)有屏幕,或者屏幕非常小,這個(gè)時(shí)候語(yǔ)音的交互顯得尤為重要。”
毫無(wú)疑問(wèn),如果每一臺(tái)物聯(lián)網(wǎng)設(shè)備都植入語(yǔ)音識(shí)別功能,那么以萬(wàn)億級(jí)出貨量的物聯(lián)網(wǎng)市場(chǎng)來(lái)算,這將會(huì)是一個(gè)巨大的市場(chǎng)空間。
挑戰(zhàn):如何從聽(tīng)見(jiàn)到聽(tīng)懂?
這和語(yǔ)音交互密不可分,可以說(shuō)語(yǔ)音交互第一個(gè)入口就是語(yǔ)音識(shí)別,語(yǔ)音交互能夠得到快速的發(fā)展得益于聲學(xué)模型、語(yǔ)言模型以及聲學(xué)處理這三個(gè)核心技術(shù)的逐步成熟,以及移動(dòng)互聯(lián)網(wǎng)時(shí)代收集的大量數(shù)據(jù)。
不過(guò),雷雄國(guó)也坦言,雖然語(yǔ)音識(shí)別已經(jīng)達(dá)到非常高的可用化程度,但要從聽(tīng)見(jiàn)到聽(tīng)懂,還有很多挑戰(zhàn)要克服。例如,對(duì)于人說(shuō)話(huà)習(xí)慣的適應(yīng),以及在人使用這個(gè)設(shè)備時(shí)不同的場(chǎng)景,不同的噪音環(huán)境都會(huì)有比較大的條件。在這些深入垂直領(lǐng)域需要更多的技術(shù)人員,以及創(chuàng)業(yè)的團(tuán)隊(duì),甚至像BAT這些大公司投入比較大的力量,把這些核心技術(shù)攻關(guān)掉。
從學(xué)術(shù)角度講,有一種語(yǔ)義不確定性,即同一句話(huà),它能夠代表的意思根據(jù)上下文,根據(jù)你所在的用戶(hù)使用場(chǎng)景,會(huì)是非常大的不一樣。
雷雄國(guó)表示,圍繞這個(gè)不確定性,在學(xué)術(shù)界語(yǔ)音識(shí)別公司要從語(yǔ)義,以及從多輪交互上,甚至在統(tǒng)計(jì)模型上做一些比較深入的解決方案出來(lái),才能準(zhǔn)確的識(shí)別信息;另外,深度神經(jīng)網(wǎng)絡(luò)也將在語(yǔ)音識(shí)別問(wèn)題上發(fā)揮重要作用。
除此之外,在機(jī)器人以及其它形態(tài)的智能硬件中,因?yàn)榻换ゾ嚯x會(huì)比手機(jī)更遠(yuǎn),所以還需要加入一些遠(yuǎn)場(chǎng)降噪的核心技術(shù),同時(shí)在應(yīng)用場(chǎng)景上需要把一些回聲對(duì)消做上去,這樣使得整個(gè)交互場(chǎng)景更加的人性化,體驗(yàn)會(huì)更好。
具體來(lái)講,從聽(tīng)見(jiàn)到聽(tīng)懂的過(guò)程就是人機(jī)對(duì)話(huà)。雷雄國(guó)表示,人機(jī)對(duì)話(huà)可以分成三類(lèi):第一類(lèi),閑聊式的,舉個(gè)例子,用戶(hù)說(shuō)“我餓了”,siri會(huì)跟你說(shuō),你餓了就去吃飯唄,它的應(yīng)用場(chǎng)景非常有限;第二是問(wèn)答式對(duì)話(huà),例如,用戶(hù)問(wèn)現(xiàn)在是幾點(diǎn)鐘了,語(yǔ)音助手就會(huì)給出確定的回答;第三類(lèi)是最熱的任務(wù)式對(duì)話(huà),它會(huì)結(jié)合你個(gè)人很多信息,然后綜合去判斷接下來(lái)怎么樣去做歸零,完成一個(gè)任務(wù)。
這是一個(gè)完全不同的場(chǎng)景,例如你還是說(shuō)我餓了,任務(wù)式對(duì)話(huà)會(huì)問(wèn)你要吃什么菜,什么口味,大概是什么價(jià)位,以及你能夠承受送貨的時(shí)間是多少,等等這一系列的對(duì)話(huà),通過(guò)這種對(duì)話(huà)式交互之后,最后才幫你解決問(wèn)題,這是對(duì)話(huà)式交互核心要素。
雷雄國(guó)介紹,在任務(wù)對(duì)話(huà)模式下,要完成“我餓了”到實(shí)現(xiàn)定餐的閉環(huán),有兩個(gè)核心點(diǎn):第一是語(yǔ)義,一定要理解“我餓了”,他并沒(méi)有說(shuō)要買(mǎi)什么東西,一定要理解他在這個(gè)情景下需要定餐;第二,對(duì)于這個(gè)意圖的跟蹤,多輪次的交互要結(jié)合上下文,甚至在縱向緯度需要結(jié)合你的日常,例如,未來(lái)我們可能會(huì)和阿里后臺(tái)一些數(shù)據(jù)做一些對(duì)接,對(duì)于你餓了的習(xí)慣做一些多緯度的決策依據(jù),做更人性化的自然語(yǔ)言交互。
這和傳統(tǒng)一輪式的語(yǔ)音交互(語(yǔ)音輸入進(jìn)去,理解后給一個(gè)反饋)有很大的區(qū)別,我們需要有關(guān)于對(duì)話(huà)的管理,以及對(duì)于環(huán)境和當(dāng)前對(duì)話(huà)所在的知識(shí)理解更為系列的后臺(tái)知識(shí)庫(kù),圍繞這些知識(shí)庫(kù)做不同的反饋。最終的效果就是,不同的人說(shuō)相同的話(huà),機(jī)器也能給出不同的反饋。
??中國(guó)為何造不出Echo??
在眾多語(yǔ)音識(shí)別和智能硬件的結(jié)合案例里,亞馬遜的Echo無(wú)疑是最受追捧的一個(gè)產(chǎn)品。但遺憾的是,中國(guó)有大量的智能硬件公司,也有不少優(yōu)秀的語(yǔ)音識(shí)別企業(yè),卻并沒(méi)有一款像Echo這樣的產(chǎn)品。
雷雄國(guó)認(rèn)為這主要有兩個(gè)原因:
其中一個(gè)很重要的原因是交互并沒(méi)有做好,我們知道亞馬遜在做Echo這件事情上面投入非常大,第一是2C產(chǎn)品本身的事情上。萬(wàn)眾創(chuàng)新,雙創(chuàng)的這兩年里死了非常多的創(chuàng)業(yè)企業(yè),這里說(shuō)明一件事情,要把硬件2C產(chǎn)品做好是非常難的一件事。
第二,人工智能整個(gè)語(yǔ)音交互,以及它背后不僅僅是語(yǔ)音識(shí)別,包括語(yǔ)義,包括你們聽(tīng)懂它之后,里面的內(nèi)容和服務(wù)都是非常大的挑戰(zhàn)。我們能夠欣喜的看到國(guó)內(nèi)有出類(lèi)似的產(chǎn)品,但是并沒(méi)有把這個(gè)熱潮,把這個(gè)產(chǎn)品做成一個(gè)爆款。
綜合這兩個(gè)原因,我們可以理解為語(yǔ)音識(shí)別的落地需要以模式創(chuàng)新和技術(shù)創(chuàng)新為基礎(chǔ),盡管要做到這兩點(diǎn)道阻且長(zhǎng),但可以確定的是,未來(lái)語(yǔ)音識(shí)別將無(wú)處不在,也是最有效地交互方式之一。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2927文章
45817瀏覽量
387380 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
39文章
1773瀏覽量
113866 -
人工智能
+關(guān)注
關(guān)注
1804文章
48628瀏覽量
246093
發(fā)布評(píng)論請(qǐng)先 登錄
萬(wàn)物相連通訊:共繪萬(wàn)物互聯(lián)藍(lán)圖

人工智能與計(jì)算產(chǎn)業(yè)生態(tài)峰會(huì)暨哈爾濱新質(zhì)生產(chǎn)力峰會(huì)圓滿(mǎn)落幕
嵌入式和人工智能究竟是什么關(guān)系?
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
第三屆OpenHarmony技術(shù)大會(huì)在上海成功舉辦
請(qǐng)回答OpenHarmony | 關(guān)于開(kāi)源生態(tài)的未來(lái)想象,我們現(xiàn)場(chǎng)回答
算出新質(zhì)生產(chǎn)力!拓維信息亮相2024世界計(jì)算大會(huì)

2024世界計(jì)算大會(huì)在長(zhǎng)沙開(kāi)幕 算出新質(zhì)生產(chǎn)力
行芯亮相2024上海新質(zhì)生產(chǎn)力集成電路產(chǎn)教融合大會(huì)
報(bào)名開(kāi)啟!深圳(國(guó)際)通用人工智能大會(huì)將啟幕,國(guó)內(nèi)外大咖齊聚話(huà)AI
發(fā)展新質(zhì)生產(chǎn)力:企業(yè)如何通過(guò)科技創(chuàng)新推動(dòng)行業(yè)數(shù)字化轉(zhuǎn)型

評(píng)論