女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音識別下一步發(fā)展如何?哪些技術(shù)可以使用?哪些價值可以發(fā)掘?

工程師鄧生 ? 來源:中關(guān)村在線 ? 作者:張彬 ? 2020-10-23 16:27 ? 次閱讀

2020科大訊飛全球1024開發(fā)者節(jié)今天正式拉開帷幕,伴隨著AI的發(fā)展,我們得以更全面和細(xì)致地洞察人們的生活習(xí)慣,并為人們提供更加智能和便捷的服務(wù)。在人工智能的應(yīng)用場景中,最重要的一個就是語音交互。針對這一點(diǎn),科大訊飛AI研究院常務(wù)副院長劉聰做了細(xì)致的講解,讓我們對當(dāng)前語音交互技術(shù)有了更清晰和深入的了解。

我們知道語音識別是訊飛的傳統(tǒng)強(qiáng)項(xiàng),從早期的呼叫、導(dǎo)航到2010年發(fā)布的訊飛超腦語音云和輸入法,從而開啟了中文語音輸入的新時代。通過深度學(xué)習(xí)等框架持續(xù)的迭代效果,我們又陸續(xù)推出了方言識別、遠(yuǎn)場交互、多麥克風(fēng)陣列等相關(guān)的功能。2015年,我們又將人機(jī)交互的場景拓展到人人對話的場景。為此我們總結(jié)出三點(diǎn),我們將語音聽寫從簡單場景的可用做到了通用。這種場景的好用,語音轉(zhuǎn)寫從原來的不好用,做到了像演講、會議、庭審等很多復(fù)雜場景的好用。像語音控制、命令喚醒,我們也是從簡單場景的可用,做到了復(fù)雜場景的好用。

隨著現(xiàn)在語音識別在更多場景的應(yīng)用,語音識別的下一步發(fā)展方向是什么?又有哪些技術(shù)可以從實(shí)驗(yàn)室場景走向成熟,還有哪些價值得我們發(fā)掘?

首先,我們認(rèn)為語音識別需要持續(xù)的去挑戰(zhàn)更加復(fù)雜的場景,去實(shí)現(xiàn)從語音到聲音,從單純的文字內(nèi)容識別到音頻的全場景解析。例如現(xiàn)在我們在泛娛樂當(dāng)中,直播、短視頻,我們可以看到這里面有很多的更加復(fù)雜的聲音場景需要我們?nèi)ソ鉀Q。例如在直播的過程中,背景可能是復(fù)雜多樣的,可能有視頻聲、游戲聲或者音樂聲。此外直播連麥的時候還會經(jīng)常出現(xiàn)多人混疊的對話,這些對我們的語音識別都會有很大的影響。除此之外,這些視頻當(dāng)中還會包含像笑聲、掌聲、各種音效等聲音,所以我們需要提出一些新的方案。當(dāng)前的框架已經(jīng)難以去解決這樣一個復(fù)雜的問題。

針對這樣一個場景,我們一方面需要降低各種背景的噪聲對識別精度的影響。另外一方面,要有針對性的將我們感興趣的聲音提取出來。這里我們也是展示了全場景音頻解析的整體方案。首先我們是通過多分辨率特征提取的聲音檢測方案,再結(jié)合我們的序列訓(xùn)練,對一些相似聲音進(jìn)行精細(xì)建模,可以實(shí)現(xiàn)將笑聲、音效等非語音的聲音和語音內(nèi)容分離。針對包含語音的有效內(nèi)容,我們也使用了語音降噪和分離的方案,綜合利用我們的聲音、文本、說話等信息,以及在有條件的情況下,還可以使用多模態(tài)的唇形、視線以及麥克風(fēng)陣列的空間位置等信息來進(jìn)行聯(lián)合建模。以上這些才能保證我們能夠持續(xù)保持語音合成以及語音識別技術(shù)的領(lǐng)先。

與此同時,我們也和合作伙伴一起,不斷提升在直播等復(fù)雜場景上的語音識別效果,并且準(zhǔn)確率從60%提到了85%。未來我們相關(guān)的技術(shù)也會在我們的開放平臺——訊飛聽見等上線。未來,我們會做得更好,請大家繼續(xù)期待。
責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能
    +關(guān)注

    關(guān)注

    8

    文章

    1729

    瀏覽量

    119022
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34405

    瀏覽量

    275643
  • 語音識別技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    13023
收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    智駕安全,發(fā)展到哪一步了?

    智駕安全,發(fā)展到哪一步了?
    的頭像 發(fā)表于 06-10 11:28 ?109次閱讀

    98%識別率!語音+觸摸方案,讓衛(wèi)浴操控一步到位!

    體驗(yàn),讓舒適與便捷一步到位!方案亮點(diǎn):技術(shù)賦能,精準(zhǔn)高效高精度語音識別語音識別率高達(dá)98%,支
    的頭像 發(fā)表于 02-26 15:49 ?296次閱讀
    98%<b class='flag-5'>識別</b>率!<b class='flag-5'>語音</b>+觸摸方案,讓衛(wèi)浴操控<b class='flag-5'>一步</b>到位!

    語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用實(shí)例

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機(jī)對
    的頭像 發(fā)表于 02-21 17:12 ?598次閱讀

    詳解語音識別技術(shù)在通信領(lǐng)域中的應(yīng)用

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機(jī)對
    的頭像 發(fā)表于 02-21 17:05 ?719次閱讀
    詳解<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>在通信領(lǐng)域中的應(yīng)用

    xshell免費(fèi)版,xshell免費(fèi)版的般情況

    。 如果官網(wǎng)無法訪問,您也可以通過網(wǎng)盤下載:鏈接提取碼:r0ds。 安裝步驟: 雙擊運(yùn)行Xshell安裝文件,并點(diǎn)擊“下一步”。 點(diǎn)擊“我接受許可證協(xié)議中的條款”,點(diǎn)擊“下一步”。 點(diǎn)擊“瀏覽”更改默認(rèn)安裝路徑,點(diǎn)擊“
    的頭像 發(fā)表于 12-16 15:50 ?1389次閱讀
    xshell免費(fèi)版,xshell免費(fèi)版的<b class='flag-5'>一</b>般情況

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來越廣泛,為醫(yī)療服務(wù)帶來了諸多便利和效率提升。以下是對語音識別技術(shù)
    的頭像 發(fā)表于 11-26 09:35 ?1083次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來,隨著計算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)
    的頭像 發(fā)表于 11-26 09:20 ?1505次閱讀

    ASR語音識別技術(shù)應(yīng)用

    語音識別技術(shù)應(yīng)用的分析: 、ASR語音識別技術(shù)原理
    的頭像 發(fā)表于 11-18 15:12 ?1901次閱讀

    如何限制容器可以使用的CPU資源

    默認(rèn)情況下容器可以使用的主機(jī) CPU 資源是不受限制的。和內(nèi)存資源的使用樣,如果不對容器可以使用的 CPU 資源進(jìn)行限制,旦發(fā)生容器內(nèi)程序異常使用 CPU 的情況,很可能把整個主機(jī)
    的頭像 發(fā)表于 10-24 17:04 ?613次閱讀
    如何限制容器<b class='flag-5'>可以使</b>用的CPU資源

    節(jié)能回饋式負(fù)載技術(shù)創(chuàng)新與發(fā)展

    。 盡管節(jié)能回饋式負(fù)載技術(shù)在創(chuàng)新和發(fā)展上取得了顯著的成果,但是其仍然面臨著些挑戰(zhàn)。例如,如何提高其能量回饋的效率,如何降低其成本,如何提高其穩(wěn)定性等。這些問題需要我們進(jìn)一步的研究和探
    發(fā)表于 10-17 09:46

    嵌入式學(xué)習(xí)-飛凌嵌入式ElfBoard ELF 1板卡-開發(fā)環(huán)境搭建之VScode的安裝及使用

    for Windows”,選擇windows版下載。 下載完成后雙擊.exe安裝包: 進(jìn)入安裝許可界面,選擇“我同意此協(xié)議”,點(diǎn)擊“下一步” 選擇安裝路徑后,點(diǎn)擊“下一步” 將所有配置都勾選上,點(diǎn)擊“下一步
    發(fā)表于 10-09 15:44

    飛凌嵌入式ElfBoard ELF 1板卡-開發(fā)環(huán)境搭建之VScode的安裝及使用

    ”,選擇windows版下載。下載完成后雙擊.exe安裝包:進(jìn)入安裝許可界面,選擇“我同意此協(xié)議”,點(diǎn)擊“下一步”選擇安裝路徑后,點(diǎn)擊“下一步”將所有配置都勾選上,點(diǎn)擊“下一步”進(jìn)入安裝界面,選擇“安裝
    發(fā)表于 09-30 09:40

    PPTP(L2TP)如何登陸IPSec VPN網(wǎng)關(guān)?

    設(shè)置PC上的PPTP VPNXP系統(tǒng)連接方式打開網(wǎng)絡(luò)連接點(diǎn)擊“創(chuàng)建個新的連接” 點(diǎn)擊下一步選擇“連接到我的工作場所的網(wǎng)絡(luò)” 選擇虛擬專用網(wǎng)絡(luò)連接 點(diǎn)擊下一步: 公司名為自定義 點(diǎn)擊下一
    發(fā)表于 07-26 07:09

    人工智能的語音識別技術(shù)詳解

    隨著科技的飛速發(fā)展,人工智能(AI)技術(shù)已經(jīng)滲透到我們生活的方方面面,其中語音識別技術(shù)作為AI領(lǐng)域的重要分支,更是以其獨(dú)特的魅力和廣泛的應(yīng)用
    的頭像 發(fā)表于 07-01 11:39 ?2462次閱讀

    語音控制模塊_雷龍發(fā)展

    詳細(xì)介紹這些步驟:   1.信號采集   離線語音識別系統(tǒng)的第一步是信號采集。聲音信號通過麥克風(fēng)(傳感器)以電信號的形式被捕捉到,這是后續(xù)處理的基礎(chǔ)。   2.預(yù)處理   預(yù)處理階
    發(fā)表于 06-14 17:18