女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

依圖強勢進軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺

DPVg_AI_era ? 來源:lq ? 2018-12-14 09:43 ? 次閱讀

依圖強勢進軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺,攜手華為發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。依圖語音識別算法在全球最大開源中文數(shù)據(jù)庫AISHELL-2上詞錯率僅3.71%,比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀錄。比對各家語音識別算法,當今智能語音戰(zhàn)場,英雄唯訊飛與依圖爾?

2018年底,智能語音市場意外殺入一匹黑馬。

素來被認為是“人臉識別獨角獸”——或者更寬泛一點說,“計算機視覺獨角獸”的依圖科技,公布了他們中文語音識別技術(shù)的最新突破,以及令人矚目的產(chǎn)業(yè)布局。

技術(shù)上,在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)達到3.71%[1],相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀錄。

產(chǎn)業(yè)上,依圖聯(lián)合微軟推出基于Azure云服務(wù)的語音開放平臺,并攜手華為發(fā)布軟硬件一體化的“智能語音聯(lián)合解決方案”,將依圖語音識別技術(shù)提供給第三方應(yīng)用開發(fā)者

依圖首席創(chuàng)新官呂昊博士

“語音一直以來都是依圖關(guān)注的課題。作為對人工智能有著深入理解和推廣應(yīng)用的公司,我們自然而然進入語音識別領(lǐng)域。”依圖首席創(chuàng)新官呂昊博士表示,依圖是一家“人工智能公司”。

“作為語音行業(yè)的‘新生’,我們還是有很多向‘老生’學(xué)習(xí)的地方,但我們立志推動行業(yè)創(chuàng)新與發(fā)展,做世界最好的中文普通話語音識別技術(shù)。”

智能語音競爭還未開始,依圖要做世界最好的中文語音識別

萬物互聯(lián),語音為先。

語音識別是AI理解世界最重要的組成部分,也是AI能聽會說善理解的必要條件。

近年來,深度學(xué)習(xí)的爆發(fā)驅(qū)動了語音識別技術(shù)的高速發(fā)展,催生了一大批智能語音創(chuàng)業(yè)公司,其中不乏實力強勁的競爭者。

除了中國智能語音“一哥”科大訊飛,百度、阿里、騰訊、京東等企業(yè)紛紛推出了智能語音產(chǎn)品,再加上雄踞國際戰(zhàn)略高點的亞馬遜、谷歌、微軟……2017年底掀起的智能音箱“百箱大戰(zhàn)”硝煙還未褪去,依圖為何選擇這個時間點入局?

“我覺得競爭都還沒開始,不存在入場的問題。”依圖科技聯(lián)合創(chuàng)始人林晨曦在2018年1月接受新智元采訪時說。

智能語音市場看似巨頭林立,但林晨曦認為創(chuàng)業(yè)公司大有可為,依圖不僅要做語音和自然語言處理,還要做到像人臉識別那樣,超越人類水平。

依圖技術(shù)負責(zé)人表示,盡管一些機構(gòu)宣傳其語音識別已經(jīng)達到乃至超越了人類水平,但多數(shù)情況下,這些結(jié)果都來自安靜、近場等受限場景。

“機器在語音環(huán)境比較理想的情況下是可以識別某些生僻詞,或者在專有名詞等識別方面比人強。但人的魯棒性還是強于機器,人在熟人且熟悉領(lǐng)域上的語音識別還是明顯能夠做過算法。”

目前語音識別仍然存在很多瓶頸,例如在發(fā)音不清楚的情況下,如何結(jié)合更強的上下文語義信息給出準確的語音識別;如何在語音識別的全鏈路上,優(yōu)化遠場識別的性能;特殊情況的處理,比如人稱代詞、語氣詞助詞;還有雞尾酒問題(多人同時說話下,能夠準確識別其中一人的語音)、電話場景的識別(低采樣率下的語音識別)。

此次依圖科技在語音識別技術(shù)方面的突破,不僅意味著依圖首次涉足語音識別領(lǐng)域便已經(jīng)躋身中文語音識別第一陣營,同時也說明語音識別在技術(shù)層面還有足夠的進化空間,遠遠沒有達到“超越人類”。

依圖預(yù)計,在未來6個月到12個月,語音識別技術(shù)的算法性能將呈指數(shù)級增長,更多的場景將被解鎖,為行業(yè)應(yīng)用帶來更大的價值。

科大訊飛和依圖屬于第一梯隊,BAT差得遠

作為進軍智能語音的第一步棋,依圖發(fā)布了“聽寫大會”微信小程序,它能將時長不超過60秒的語音轉(zhuǎn)寫成文字,支持普通話,并且兼容多種口音。

“聽寫大會”微信小程序:業(yè)界也屬于首次公開透明地比對各類算法的水平差異

不過,“我們希望大家不要僅僅是關(guān)注在API本身,”依圖首席創(chuàng)新管呂昊表示:“我們希望借助這個API,讓大家去關(guān)注到整個語音識別行業(yè)的發(fā)展情況。”

呂昊說,一直以來語音識別業(yè)界都沒有公開透明的語音識別比對,通過“聽寫大會”微信小程序,用戶可以直觀感受到各家語音識別技術(shù)的真實表現(xiàn),在業(yè)界也屬于首次公開透明地比對各類算法的水平差異。

訊飛依圖BAT各家算法差異巨大,訊飛依圖位列第一陣營

“目前語音識別業(yè)界存在兩種認知誤區(qū),”呂昊說:“一種是極端的好,也就是各家都好沒有差異;一種是極端的差,認為都不能解決問題。”

實際情況是,“科大訊飛的語音識別能力比BAT領(lǐng)先很多。在場景測試中,除了依圖和科大訊飛之外,大部分廠家的算法字錯率抖動大,意味著場景的通用性差。”

依圖此次推出的中文語音識別算法,與業(yè)內(nèi)原有領(lǐng)先者相比,不僅大幅提升了識別準確率,而且在單個算法模型上,有極為出色的多場景適用性表現(xiàn)。

一般認為,中文語音識別的字錯率低于3%時不會影響可讀性,而超過15%則毫無可讀性。這是語音識別的兩條紅線,在不同場景下,不同算法的表現(xiàn)可能會有很大差異。

在全球最大中文開源數(shù)據(jù)庫AISHELL-2[2] 的三個測試子集,以及來自第三方的近場口音測試集(Accent)、近場安靜聊天測試集(Chat)、語音節(jié)目測試集、電話測試集、遠場測試集等測試場景中,依圖均處于業(yè)界領(lǐng)先水平,而且字錯率幾乎全部在15%以下。

其中,在AISHELL2的-2018A-EVAL數(shù)據(jù)集中,依圖的識別準確率高達96.29%,字錯率僅為3.71%,領(lǐng)先第二名約20%。

這意味著依圖在語音領(lǐng)域做到了第一梯隊 (甚至是領(lǐng)先) 的水平,在多場景的適用方面,也體現(xiàn)出顯著優(yōu)勢。

左有微軟,右有華為,用技術(shù)想象力撬動語音市場

“依圖的語音API產(chǎn)品和語音開放平臺剛剛上線,我們歡迎越來越多的開發(fā)者和客戶使用依圖的產(chǎn)品,共同改進產(chǎn)品性能,并探討更具突破性的應(yīng)用場景。”呂昊說。

關(guān)于未來預(yù)計推出的語音產(chǎn)品及其功能,呂昊表示,“實際上,我們認為技術(shù)和場景是比產(chǎn)品和功能更關(guān)鍵的要素,推動了技術(shù)發(fā)展進步,我們才可以領(lǐng)略到以前看不到的更多可能性,解決很多以前想象不到的問題。今天語音識別跟人類的能力還有巨大的差距,依圖希望能夠攜手業(yè)界共同推動行業(yè)進步。”

發(fā)布會上,依圖宣布與微軟Azure云服務(wù)聯(lián)合發(fā)布語音開放平臺,將行業(yè)領(lǐng)先的語音識別技術(shù)能力開放給第三方應(yīng)用開發(fā)者。此外,依圖還將與微軟在智能語音領(lǐng)域展開更深層次的合作,共建AI生態(tài)。

2018年4月,微軟全球執(zhí)行副總裁沈向洋(右)訪問依圖。依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏(左)曾在微軟亞洲研究院(MSRA)研發(fā)人臉識別算法,導(dǎo)師就是沈向洋。依圖科技聯(lián)合創(chuàng)始人林晨曦,業(yè)務(wù)技術(shù)副總裁吳岷,研發(fā)總監(jiān)周健等也都來自MSRA。圖片來源:依圖科技

與此同時,依圖也攜手華為聯(lián)合發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺,以及華為全棧全場景 Ascend(昇騰)系列芯片和面向數(shù)據(jù)中心側(cè)的 Atlas 300 AI加速卡,將雙方強大的技術(shù)研發(fā)能力與生態(tài)服務(wù)能力深度結(jié)合,形成軟硬件一體化的聯(lián)合解決方案,進一步幫助提升開發(fā)效率。

自2016年成為合作伙伴以來,依圖和華為已形成全方位聯(lián)動。今年3月,雙方共同發(fā)布“華為-依圖視頻云人像大數(shù)據(jù)”解決方案,布局全球城市級公共安全。10月,2018華為全聯(lián)接大會期間,依圖作為大會安保唯一AI合作伙伴,與華為聯(lián)合發(fā)布了分支視頻云聯(lián)合解決方案、智慧警務(wù)云解決方案和智慧園區(qū)解決方案,在平安城市、智慧警務(wù)、大數(shù)據(jù)應(yīng)用等方面持續(xù)加深合作。

10月9日,華為輪值董事長徐直軍(左二)、華為安平系統(tǒng)部總裁岳坤、華為企業(yè)BG行業(yè)Marketing與解決方案總裁喻東(左三)等一行到訪依圖。來源:依圖科技

此前,有傳言微軟Azure云服務(wù)在中國的數(shù)據(jù)中心將使用華為的昇騰芯片,這一消息尚未得到證實。但本次由依圖串接起來的微軟、華為合作鏈,不禁讓人浮想聯(lián)翩。

根據(jù)2018中國語音產(chǎn)業(yè)聯(lián)盟年會上周發(fā)布的《2017-2018中國智能語音產(chǎn)業(yè)白皮書》,全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長,2014年至2018年,中國智能語音產(chǎn)業(yè)規(guī)模由30億元增長至159.7億元。

左有微軟,右有華為,再加上自身的技術(shù),依圖在智能語音開局便湊齊了一手好牌。

最后要說的是依圖科技的首席創(chuàng)新官呂昊。呂昊今年2月加入依圖,之前是谷歌的研究科學(xué)家。根據(jù)依圖科技官方介紹,呂昊在谷歌期間曾負責(zé)孵化安卓APP啟動推薦系統(tǒng),這是全球首個移動端APP啟動推薦系統(tǒng),也是全球首個基于機器學(xué)習(xí)的安卓產(chǎn)品。他會帶領(lǐng)依圖與華為孵化出怎樣的智能語音聯(lián)合解決方案?

林晨曦曾表示好的人才需要對未來充滿想象力,朱瓏也在文章里寫因為看見,所以相信——現(xiàn)在這句話基本成了依圖的Slogan。

“99%識別率的算法和99.99%的算法,區(qū)別在于可解鎖的應(yīng)用場景,對技術(shù)商業(yè)價值的想象力將回答AI的場景在哪里以及多快到來。”

“我們認為,目前語音識別仍處于初步發(fā)展的階段,依圖將始終保持在技術(shù)層面的投入,通過技術(shù)的突破來解鎖更多的可能,也歡迎合作伙伴與我們共同探索語音技術(shù)的行業(yè)應(yīng)用。”呂昊說。

注釋

[1] 一般在英文語音識別中用“詞錯率”(WER),因為最小單元是詞;中文語音識別一般使用“字錯率”(CER),因為最小單元是字.

[2] AISHELL-2是AISHELL Foundation和希爾貝殼創(chuàng)建的開源數(shù)據(jù)庫,含有1000小時中文語音數(shù)據(jù),由1991名來自中國不同口音區(qū)域的說話者參與錄制,經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標注,通過了嚴格質(zhì)量檢驗,數(shù)據(jù)庫文本正確率在96%以上,錄音文本涉及喚醒詞、語音控制詞、智能家居無人駕駛、工業(yè)生產(chǎn)等12個領(lǐng)域.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6673

    瀏覽量

    105384
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3901

    瀏覽量

    65783
  • 智能語音
    +關(guān)注

    關(guān)注

    11

    文章

    797

    瀏覽量

    49387

原文標題:依圖做語音了!識別精度創(chuàng)中文語音識別新高點

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    藍牙語音遙控器:智能家居的智慧控制核心

    隨著智能家居的蓬勃發(fā)展,藍牙語音遙控器憑借其便捷的操作和智能交互體驗,正迅速取代傳統(tǒng)紅外遙控器,成為智能電視、機頂盒等設(shè)備的首選控制工具。 相較于需對準設(shè)備的紅外遙控器,藍牙
    發(fā)表于 06-01 20:24

    安信可語音開放平臺的使用——VC系列SDK的獲取

    安信可離線語音開放平臺提供了開發(fā)量接近于零的SDK生成功能,對于功能簡單的控制及串口輸出,甚至可以直接生成固件進行燒錄測試。
    的頭像 發(fā)表于 04-12 11:24 ?251次閱讀
    安信可<b class='flag-5'>語音</b><b class='flag-5'>開放</b><b class='flag-5'>平臺</b>的使用——VC系列SDK的獲取

    智能語音交互方案在客服領(lǐng)域的應(yīng)用

    在當今數(shù)字化浪潮中,客服領(lǐng)域正經(jīng)歷著前所未有的變革,智能語音交互方案憑借其高效、便捷的特性,成為推動這一變革的核心力量。其中,語音識別模型優(yōu)化私部署方案與語音合成聲音定制方案作為兩大核
    的頭像 發(fā)表于 04-11 14:35 ?207次閱讀

    stm32語音通話

    目前再做一個stm32語音通話,通過麥克風(fēng)采集adc信號,在通過4G模塊傳輸?shù)?b class='flag-5'>云,然后另一個4G模塊接受的數(shù)據(jù)使用DAC輸出,目前就是說話會斷斷續(xù)續(xù)的,可能是網(wǎng)絡(luò)傳輸問題,請問各位老哥有沒有什么解決的辦法?只需要做到半雙工即可
    發(fā)表于 03-10 10:52

    HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能語音播報

    一、DEMO思路 在這個HarmonyOS NEXT原生應(yīng)用DEMO中,我們將使用ArkTS開發(fā)語言創(chuàng)建一個簡單的AI智能語音播報應(yīng)用。 該應(yīng)用能夠接收用戶輸入的文本,并使用TTS
    發(fā)表于 01-06 15:33

    Tuya物聯(lián)網(wǎng)平臺阿里版:助力客戶打造融合開放的專屬物聯(lián)平臺

    在2024年9月的云棲大會上,涂鴉智能與阿里聯(lián)合發(fā)布了Tuya物聯(lián)網(wǎng)平臺阿里版。此產(chǎn)品一經(jīng)問世,就獲得了來自新能源、新制造、新零售、智慧
    的頭像 發(fā)表于 01-03 17:32 ?790次閱讀
    Tuya物聯(lián)網(wǎng)<b class='flag-5'>平臺</b>阿里<b class='flag-5'>云</b>版:助力客戶打造融合<b class='flag-5'>開放</b>的專屬物聯(lián)<b class='flag-5'>平臺</b>

    解鎖個性化語音交互新時代:九芯智能語音平臺,讓創(chuàng)意聲音觸手可及!

    九芯智能語音平臺提供全面高效安全的智能語音服務(wù),支持自定義
    的頭像 發(fā)表于 01-02 16:51 ?713次閱讀
    解鎖個性化<b class='flag-5'>語音</b>交互新時代:九芯<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>云</b><b class='flag-5'>平臺</b>,讓創(chuàng)意聲音觸手可及!

    NV512H語音芯片賦能加濕器方案,集語音播報+平臺自定義語音功能

    在秋冬季節(jié),天氣逐漸轉(zhuǎn)涼,空氣變得干燥,加濕器成為了許多家庭和辦公場所不可或缺的電器設(shè)備。NV512H語音芯片賦能的加濕器方案,不僅提升了加濕器的智能化水平,更在用戶體驗上實現(xiàn)了質(zhì)的飛躍
    的頭像 發(fā)表于 12-26 13:35 ?451次閱讀
    NV512H<b class='flag-5'>語音</b>芯片賦能加濕器方案,集<b class='flag-5'>語音</b>播報+<b class='flag-5'>平臺</b>自定義<b class='flag-5'>語音</b>功能

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標貝科技專注智能語音交互領(lǐng)域多年,在語音識別和語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標貝與多個智能會議系統(tǒng)廠商合作,成功將
    的頭像 發(fā)表于 12-20 10:35 ?524次閱讀

    基于智能語音交互的智能呼叫中心工作機制

    作為實現(xiàn)智能呼叫中心的關(guān)鍵技術(shù)之一的智能語音交互技術(shù),它通過集成自然語言處理(NLP)、語音識別(ASR)和語音合成(TTS)等先進技術(shù),實
    的頭像 發(fā)表于 12-03 16:44 ?652次閱讀
    基于<b class='flag-5'>智能</b><b class='flag-5'>語音</b>交互的<b class='flag-5'>智能</b>呼叫中心工作機制

    智能語音的驅(qū)動力:揭秘8腳語音芯片在智能設(shè)備中的非凡角色

    語音技術(shù)滲透生活,8腳語音芯片以微縮體積、低功耗、卓越性能成智能設(shè)備語音功能核心,集成識別、合成、壓縮解碼等功能,實現(xiàn)精準語音交互,讓設(shè)備更
    的頭像 發(fā)表于 12-02 14:23 ?468次閱讀

    離線語音芯片讓家電變得智能

    目前智能語音有多種方式,常見的有在線語音與離線語音。因為智能語音處理需要用到算力,所以剛開始都是
    的頭像 發(fā)表于 11-27 01:00 ?520次閱讀
    離線<b class='flag-5'>語音</b>芯片讓家電變得<b class='flag-5'>智能</b>

    離線語音:實現(xiàn)智能家居的無縫互操作

    版,自然而然地成為了智能家居領(lǐng)域新的增長點,引領(lǐng)著行業(yè)邁向新的高度。智能語音,作為智能家居的啟明星,早已吸引了國內(nèi)外眾多IT巨頭的目光。谷歌以NEST為跳板,
    的頭像 發(fā)表于 11-15 01:02 ?716次閱讀
    離線<b class='flag-5'>語音</b>:實現(xiàn)<b class='flag-5'>智能</b>家居的無縫互操作

    NVH-FLASH語音芯片支持平臺語音—打造音頻IC技術(shù)革新

    與靈活的支持平臺,正逐步引領(lǐng)著音頻設(shè)備向更高品質(zhì)、更智能化方向發(fā)展。一、NVH-FLASH系列語音芯片概述NVH-FLASH系列語音芯片,以其內(nèi)置的超大容量閃存技術(shù)
    的頭像 發(fā)表于 10-16 08:02 ?529次閱讀
    NVH-FLASH<b class='flag-5'>語音</b>芯片支持<b class='flag-5'>平臺</b>做<b class='flag-5'>語音</b>—打造音頻IC技術(shù)革新

    語音集成電路是指什么意思

    語音集成電路(Voice Integrated Circuit,簡稱VIC)是一種專門用于處理語音信號的集成電路。它通常包括了語音識別、語音合成、
    的頭像 發(fā)表于 09-30 15:44 ?777次閱讀