依圖強勢進軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺,攜手華為發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。依圖語音識別算法在全球最大開源中文數(shù)據(jù)庫AISHELL-2上詞錯率僅3.71%,比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀錄。比對各家語音識別算法,當今智能語音戰(zhàn)場,英雄唯訊飛與依圖爾?
2018年底,智能語音市場意外殺入一匹黑馬。
素來被認為是“人臉識別獨角獸”——或者更寬泛一點說,“計算機視覺獨角獸”的依圖科技,公布了他們中文語音識別技術(shù)的最新突破,以及令人矚目的產(chǎn)業(yè)布局。
技術(shù)上,在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)達到3.71%[1],相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀錄。
產(chǎn)業(yè)上,依圖聯(lián)合微軟推出基于Azure云服務(wù)的語音開放平臺,并攜手華為發(fā)布軟硬件一體化的“智能語音聯(lián)合解決方案”,將依圖語音識別技術(shù)提供給第三方應(yīng)用開發(fā)者。
依圖首席創(chuàng)新官呂昊博士
“語音一直以來都是依圖關(guān)注的課題。作為對人工智能有著深入理解和推廣應(yīng)用的公司,我們自然而然進入語音識別領(lǐng)域。”依圖首席創(chuàng)新官呂昊博士表示,依圖是一家“人工智能公司”。
“作為語音行業(yè)的‘新生’,我們還是有很多向‘老生’學(xué)習(xí)的地方,但我們立志推動行業(yè)創(chuàng)新與發(fā)展,做世界最好的中文普通話語音識別技術(shù)。”
智能語音競爭還未開始,依圖要做世界最好的中文語音識別
萬物互聯(lián),語音為先。
語音識別是AI理解世界最重要的組成部分,也是AI能聽會說善理解的必要條件。
近年來,深度學(xué)習(xí)的爆發(fā)驅(qū)動了語音識別技術(shù)的高速發(fā)展,催生了一大批智能語音創(chuàng)業(yè)公司,其中不乏實力強勁的競爭者。
除了中國智能語音“一哥”科大訊飛,百度、阿里、騰訊、京東等企業(yè)紛紛推出了智能語音產(chǎn)品,再加上雄踞國際戰(zhàn)略高點的亞馬遜、谷歌、微軟……2017年底掀起的智能音箱“百箱大戰(zhàn)”硝煙還未褪去,依圖為何選擇這個時間點入局?
“我覺得競爭都還沒開始,不存在入場的問題。”依圖科技聯(lián)合創(chuàng)始人林晨曦在2018年1月接受新智元采訪時說。
智能語音市場看似巨頭林立,但林晨曦認為創(chuàng)業(yè)公司大有可為,依圖不僅要做語音和自然語言處理,還要做到像人臉識別那樣,超越人類水平。
依圖技術(shù)負責(zé)人表示,盡管一些機構(gòu)宣傳其語音識別已經(jīng)達到乃至超越了人類水平,但多數(shù)情況下,這些結(jié)果都來自安靜、近場等受限場景。
“機器在語音環(huán)境比較理想的情況下是可以識別某些生僻詞,或者在專有名詞等識別方面比人強。但人的魯棒性還是強于機器,人在熟人且熟悉領(lǐng)域上的語音識別還是明顯能夠做過算法。”
目前語音識別仍然存在很多瓶頸,例如在發(fā)音不清楚的情況下,如何結(jié)合更強的上下文語義信息給出準確的語音識別;如何在語音識別的全鏈路上,優(yōu)化遠場識別的性能;特殊情況的處理,比如人稱代詞、語氣詞助詞;還有雞尾酒問題(多人同時說話下,能夠準確識別其中一人的語音)、電話場景的識別(低采樣率下的語音識別)。
此次依圖科技在語音識別技術(shù)方面的突破,不僅意味著依圖首次涉足語音識別領(lǐng)域便已經(jīng)躋身中文語音識別第一陣營,同時也說明語音識別在技術(shù)層面還有足夠的進化空間,遠遠沒有達到“超越人類”。
依圖預(yù)計,在未來6個月到12個月,語音識別技術(shù)的算法性能將呈指數(shù)級增長,更多的場景將被解鎖,為行業(yè)應(yīng)用帶來更大的價值。
科大訊飛和依圖屬于第一梯隊,BAT差得遠
作為進軍智能語音的第一步棋,依圖發(fā)布了“聽寫大會”微信小程序,它能將時長不超過60秒的語音轉(zhuǎn)寫成文字,支持普通話,并且兼容多種口音。
“聽寫大會”微信小程序:業(yè)界也屬于首次公開透明地比對各類算法的水平差異
不過,“我們希望大家不要僅僅是關(guān)注在API本身,”依圖首席創(chuàng)新管呂昊表示:“我們希望借助這個API,讓大家去關(guān)注到整個語音識別行業(yè)的發(fā)展情況。”
呂昊說,一直以來語音識別業(yè)界都沒有公開透明的語音識別比對,通過“聽寫大會”微信小程序,用戶可以直觀感受到各家語音識別技術(shù)的真實表現(xiàn),在業(yè)界也屬于首次公開透明地比對各類算法的水平差異。
訊飛依圖BAT各家算法差異巨大,訊飛依圖位列第一陣營
“目前語音識別業(yè)界存在兩種認知誤區(qū),”呂昊說:“一種是極端的好,也就是各家都好沒有差異;一種是極端的差,認為都不能解決問題。”
實際情況是,“科大訊飛的語音識別能力比BAT領(lǐng)先很多。在場景測試中,除了依圖和科大訊飛之外,大部分廠家的算法字錯率抖動大,意味著場景的通用性差。”
依圖此次推出的中文語音識別算法,與業(yè)內(nèi)原有領(lǐng)先者相比,不僅大幅提升了識別準確率,而且在單個算法模型上,有極為出色的多場景適用性表現(xiàn)。
一般認為,中文語音識別的字錯率低于3%時不會影響可讀性,而超過15%則毫無可讀性。這是語音識別的兩條紅線,在不同場景下,不同算法的表現(xiàn)可能會有很大差異。
在全球最大中文開源數(shù)據(jù)庫AISHELL-2[2] 的三個測試子集,以及來自第三方的近場口音測試集(Accent)、近場安靜聊天測試集(Chat)、語音節(jié)目測試集、電話測試集、遠場測試集等測試場景中,依圖均處于業(yè)界領(lǐng)先水平,而且字錯率幾乎全部在15%以下。
其中,在AISHELL2的-2018A-EVAL數(shù)據(jù)集中,依圖的識別準確率高達96.29%,字錯率僅為3.71%,領(lǐng)先第二名約20%。
這意味著依圖在語音領(lǐng)域做到了第一梯隊 (甚至是領(lǐng)先) 的水平,在多場景的適用方面,也體現(xiàn)出顯著優(yōu)勢。
左有微軟,右有華為,用技術(shù)想象力撬動語音市場
“依圖的語音API產(chǎn)品和語音開放平臺剛剛上線,我們歡迎越來越多的開發(fā)者和客戶使用依圖的產(chǎn)品,共同改進產(chǎn)品性能,并探討更具突破性的應(yīng)用場景。”呂昊說。
關(guān)于未來預(yù)計推出的語音產(chǎn)品及其功能,呂昊表示,“實際上,我們認為技術(shù)和場景是比產(chǎn)品和功能更關(guān)鍵的要素,推動了技術(shù)發(fā)展進步,我們才可以領(lǐng)略到以前看不到的更多可能性,解決很多以前想象不到的問題。今天語音識別跟人類的能力還有巨大的差距,依圖希望能夠攜手業(yè)界共同推動行業(yè)進步。”
發(fā)布會上,依圖宣布與微軟Azure云服務(wù)聯(lián)合發(fā)布語音開放平臺,將行業(yè)領(lǐng)先的語音識別技術(shù)能力開放給第三方應(yīng)用開發(fā)者。此外,依圖還將與微軟在智能語音領(lǐng)域展開更深層次的合作,共建AI生態(tài)。
2018年4月,微軟全球執(zhí)行副總裁沈向洋(右)訪問依圖。依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏(左)曾在微軟亞洲研究院(MSRA)研發(fā)人臉識別算法,導(dǎo)師就是沈向洋。依圖科技聯(lián)合創(chuàng)始人林晨曦,業(yè)務(wù)技術(shù)副總裁吳岷,研發(fā)總監(jiān)周健等也都來自MSRA。圖片來源:依圖科技
與此同時,依圖也攜手華為聯(lián)合發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺,以及華為全棧全場景 Ascend(昇騰)系列芯片和面向數(shù)據(jù)中心側(cè)的 Atlas 300 AI加速卡,將雙方強大的技術(shù)研發(fā)能力與生態(tài)服務(wù)能力深度結(jié)合,形成軟硬件一體化的聯(lián)合解決方案,進一步幫助提升開發(fā)效率。
自2016年成為合作伙伴以來,依圖和華為已形成全方位聯(lián)動。今年3月,雙方共同發(fā)布“華為-依圖視頻云人像大數(shù)據(jù)”解決方案,布局全球城市級公共安全。10月,2018華為全聯(lián)接大會期間,依圖作為大會安保唯一AI合作伙伴,與華為聯(lián)合發(fā)布了分支視頻云聯(lián)合解決方案、智慧警務(wù)云解決方案和智慧園區(qū)解決方案,在平安城市、智慧警務(wù)、大數(shù)據(jù)應(yīng)用等方面持續(xù)加深合作。
10月9日,華為輪值董事長徐直軍(左二)、華為安平系統(tǒng)部總裁岳坤、華為企業(yè)BG行業(yè)Marketing與解決方案總裁喻東(左三)等一行到訪依圖。來源:依圖科技
此前,有傳言微軟Azure云服務(wù)在中國的數(shù)據(jù)中心將使用華為的昇騰芯片,這一消息尚未得到證實。但本次由依圖串接起來的微軟、華為合作鏈,不禁讓人浮想聯(lián)翩。
根據(jù)2018中國語音產(chǎn)業(yè)聯(lián)盟年會上周發(fā)布的《2017-2018中國智能語音產(chǎn)業(yè)白皮書》,全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長,2014年至2018年,中國智能語音產(chǎn)業(yè)規(guī)模由30億元增長至159.7億元。
左有微軟,右有華為,再加上自身的技術(shù),依圖在智能語音開局便湊齊了一手好牌。
最后要說的是依圖科技的首席創(chuàng)新官呂昊。呂昊今年2月加入依圖,之前是谷歌的研究科學(xué)家。根據(jù)依圖科技官方介紹,呂昊在谷歌期間曾負責(zé)孵化安卓APP啟動推薦系統(tǒng),這是全球首個移動端APP啟動推薦系統(tǒng),也是全球首個基于機器學(xué)習(xí)的安卓產(chǎn)品。他會帶領(lǐng)依圖與華為孵化出怎樣的智能語音聯(lián)合解決方案?
林晨曦曾表示好的人才需要對未來充滿想象力,朱瓏也在文章里寫因為看見,所以相信——現(xiàn)在這句話基本成了依圖的Slogan。
“99%識別率的算法和99.99%的算法,區(qū)別在于可解鎖的應(yīng)用場景,對技術(shù)商業(yè)價值的想象力將回答AI的場景在哪里以及多快到來。”
“我們認為,目前語音識別仍處于初步發(fā)展的階段,依圖將始終保持在技術(shù)層面的投入,通過技術(shù)的突破來解鎖更多的可能,也歡迎合作伙伴與我們共同探索語音技術(shù)的行業(yè)應(yīng)用。”呂昊說。
注釋
[1] 一般在英文語音識別中用“詞錯率”(WER),因為最小單元是詞;中文語音識別一般使用“字錯率”(CER),因為最小單元是字.
[2] AISHELL-2是AISHELL Foundation和希爾貝殼創(chuàng)建的開源數(shù)據(jù)庫,含有1000小時中文語音數(shù)據(jù),由1991名來自中國不同口音區(qū)域的說話者參與錄制,經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標注,通過了嚴格質(zhì)量檢驗,數(shù)據(jù)庫文本正確率在96%以上,錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業(yè)生產(chǎn)等12個領(lǐng)域.
-
微軟
+關(guān)注
關(guān)注
4文章
6673瀏覽量
105384 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3901瀏覽量
65783 -
智能語音
+關(guān)注
關(guān)注
11文章
797瀏覽量
49387
原文標題:依圖做語音了!識別精度創(chuàng)中文語音識別新高點
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
藍牙語音遙控器:智能家居的智慧控制核心
智能語音交互方案在客服領(lǐng)域的應(yīng)用
stm32語音通話
HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能語音播報
Tuya物聯(lián)網(wǎng)平臺阿里云版:助力客戶打造融合開放的專屬物聯(lián)平臺

NV512H語音芯片賦能加濕器方案,集語音播報+平臺自定義語音功能

基于語音識別的智能會議系統(tǒng)具備哪些交互功能
基于智能語音交互的智能呼叫中心工作機制

智能語音的驅(qū)動力:揭秘8腳語音芯片在智能設(shè)備中的非凡角色
離線語音:實現(xiàn)智能家居的無縫互操作

NVH-FLASH語音芯片支持平臺做語音—打造音頻IC技術(shù)革新

評論