女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google最新發(fā)布的一個用于幫助訓(xùn)練和評估關(guān)鍵詞識別系統(tǒng)的口語詞匯組成的音頻數(shù)據(jù)集

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-04-16 15:41 ? 次閱讀

在本文中,我們描述了Google最新發(fā)布的一個用于幫助訓(xùn)練和評估關(guān)鍵詞識別系統(tǒng)的口語詞匯組成的音頻數(shù)據(jù)集。討論了為什么這個任務(wù)是一個有趣的挑戰(zhàn),以及為什么它需要一個專門的,與用于對完整句子進(jìn)行自動語音識別的傳統(tǒng)數(shù)據(jù)集所不同的數(shù)據(jù)集。

我們提出了一種對該任務(wù)進(jìn)行可重復(fù)、可比較的精確度指標(biāo)度量方法。描述了數(shù)據(jù)是如何被收集和驗(yàn)證的,它所包含的內(nèi)容,以及其以前的版本和屬性。通過報告在該數(shù)據(jù)集上訓(xùn)練的模型的基線結(jié)果而得出了結(jié)論。

一般說來,語音識別研究傳統(tǒng)上需要大學(xué)或企業(yè)等大型機(jī)構(gòu)的資源來進(jìn)行。在這些機(jī)構(gòu)工作的人通常可以通過與語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium)等組織達(dá)成協(xié)議,從而自由地訪問并使用學(xué)術(shù)數(shù)據(jù)集或者專有的商業(yè)數(shù)據(jù)。

隨著語音技術(shù)的成熟,想要訓(xùn)練和評估識別模型的人數(shù)已經(jīng)不僅只是這些傳統(tǒng)組織群體,但是數(shù)據(jù)集的可用性并沒有被擴(kuò)展。正如ImageNet和計算機(jī)視覺領(lǐng)域中類似的集合所顯示的那樣,拓寬對數(shù)據(jù)集的訪問可以鼓勵跨組織的協(xié)作,并使得在不同方法之間能夠進(jìn)行同類比較,幫助整個領(lǐng)域向前發(fā)展。

語音命令數(shù)據(jù)集(Speech Commands dataset)是為一類簡單的語音識別任務(wù)構(gòu)建標(biāo)準(zhǔn)訓(xùn)練和評估數(shù)據(jù)集的嘗試。它的主要目標(biāo)是提供一種方法來構(gòu)建和測試小模型,這些模型可以從背景噪音或不相關(guān)語音中以盡可能少的誤報(false positives),從一組10個或更少的目標(biāo)單詞中檢測出單個單詞的使用時間,這個任務(wù)通常被稱為關(guān)鍵詞識別。

為了覆蓋到更廣泛的研究人員和開發(fā)人員,該數(shù)據(jù)集已經(jīng)在“知識共享”(Creative Commons)4.0許可下被發(fā)布了出來。這使該數(shù)據(jù)集能夠很容易地被納入到教程和其他腳本中,可以被下載和使用,而不需要任何用戶干預(yù)(例如,在網(wǎng)站上注冊或向管理員發(fā)送電子郵件尋求許可)。該許可證在商業(yè)環(huán)境中也是眾所周知的,因此通常在需要批準(zhǔn)的情況下可以由法律團(tuán)隊(duì)快速處理。

圖1:數(shù)據(jù)集中每個單詞的記錄數(shù)量

▌相關(guān)研究

Mozilla的通用語音(Common Voice)數(shù)據(jù)集擁有2萬名不同的人的超過500個小時的語音,并且可以在“知識共享”Zero許可(類似于公共域)下使用。這個許可證使得構(gòu)建它非常容易。它由句子對齊,并且是由志愿者通過網(wǎng)絡(luò)應(yīng)用程序閱讀請求的短語而創(chuàng)建的。

LibriSpeech是一個1000小時的閱讀英語演講集,在“知識共享”4.0許可下發(fā)布,并使用受到廣泛支持的開源FLAC編碼器進(jìn)行存儲。它的標(biāo)簽只在句子級別上對齊,因此缺少詞級的對齊信息。這使得它比起關(guān)鍵詞識別更適合全自動語音識別。

TIDIGITS包含由300位不同說話者錄制的25,000位數(shù)字序列,由付費(fèi)的參與者在安靜的房間錄制。該數(shù)據(jù)集只能在來自語言數(shù)據(jù)聯(lián)盟的商業(yè)許可下使用,并且以NIST SPHERE文件格式存儲,這種格式被證實(shí)難以使用現(xiàn)代軟件來解碼。我們關(guān)于關(guān)鍵詞識別的初始實(shí)驗(yàn)是使用該數(shù)據(jù)集進(jìn)行的。

CHiME-5擁有在人們家中錄制的50個小時的語音記錄,存儲為16 KHz的 WAV文件,并可以在有限的許可下使用。它在句子級別對齊。

許多語音接口依賴關(guān)鍵詞識別來啟動交互。例如,你可能會說”Hey Google"或"Hey Siri”開始查詢或命令你的手機(jī)。一旦設(shè)備知道你想要進(jìn)行交互,就可以將音頻發(fā)送到Web服務(wù)以運(yùn)行一個僅受商業(yè)考慮限制的模型,因?yàn)樗梢栽谫Y源由云服務(wù)提供商控制的服務(wù)器上運(yùn)行。雖然交互開始的初始檢測想要作為基于云的服務(wù)運(yùn)行是不切實(shí)際的,因?yàn)樗枰冀K從所有設(shè)備通過網(wǎng)絡(luò)發(fā)送音頻數(shù)據(jù)。這樣維護(hù)成本會非常高,并且會增加該技術(shù)的隱私風(fēng)險。

相反,大多數(shù)語音接口在手機(jī)或其他設(shè)備上本地運(yùn)行識別模塊。這種連續(xù)監(jiān)聽來自麥克風(fēng)的音頻輸入,并不是通過互聯(lián)網(wǎng)將數(shù)據(jù)發(fā)送到服務(wù)器,而是他們運(yùn)行監(jiān)聽所需觸發(fā)短語的模型。一旦聽到可能的觸發(fā)信號后,就開始將音頻傳輸?shù)絎eb服務(wù)。由于本地模型在不受Web服務(wù)提供商控制的硬件上運(yùn)行,因此設(shè)備模型必須尊重硬資源限制。其中最明顯的是,通常移動處理器所具有的總計算能力比大多數(shù)服務(wù)器要低得多,因此為了實(shí)現(xiàn)交互式響應(yīng),近似實(shí)時運(yùn)行,設(shè)備模型的計算所需的計算量必須少于其等效云計算量。

更巧妙的是,移動設(shè)備的電池續(xù)航時間有限,而且持續(xù)運(yùn)行的任何設(shè)備都需要非常節(jié)能,否則用戶會發(fā)現(xiàn)設(shè)備的耗電速度太快。這一考慮不適用于插電式家用設(shè)備,但這些設(shè)備在可以消散多少熱量上存在一定的限制,從而限制了本地模型可用的能源數(shù)量,并受到諸如能源之星(EnergyStar)等計劃的鼓勵,盡可能減少其整體用電量。最后需要考慮的是,用戶期望設(shè)備能夠做出快速響應(yīng),而網(wǎng)絡(luò)延遲可能會因環(huán)境而變化很大,因此,即使服務(wù)器的全部響應(yīng)延遲,一些命令已收到的初始確認(rèn)對于獲得良好體驗(yàn)也很重要。

這些約束意味著,關(guān)鍵詞識別的任務(wù)與一旦發(fā)現(xiàn)交互后在服務(wù)器上執(zhí)行的語音識別是完全不同的:

關(guān)鍵詞識別模型必須更小,所涉及的計算量更少。

它們需要以非常節(jié)能的方式運(yùn)行。

它們的大部分輸入是沉默或背景噪聲,而不是言語,所以誤報必須盡量減少。

大部分語音輸入與語音接口無關(guān),因此模型不應(yīng)觸發(fā)任意語音。

識別的重要單位是單個單詞或短語,而不是整個句子。

這些差異意味著設(shè)備內(nèi)關(guān)鍵詞識別和一般語音識別模型之間的訓(xùn)練和評估過程是完全不同的。有一些有發(fā)展前景的數(shù)據(jù)集可以支持通用的語音任務(wù),例如Mozilla的通用語音,但它們不容易適用于關(guān)鍵詞識別。

此語音命令數(shù)據(jù)集旨在滿足構(gòu)建和測試設(shè)備上模型的特殊需求,使模型作者能夠使用與其他模型相媲美的度量標(biāo)準(zhǔn)來演示其架構(gòu)的精確度,并為團(tuán)隊(duì)提供一種簡單的方法通過對相同數(shù)據(jù)進(jìn)行訓(xùn)練來重現(xiàn)基準(zhǔn)模型。希望這將加速進(jìn)展和協(xié)作,并提高可用模型的整體質(zhì)量。

第二個重要受眾是硬件制造商。通過使用密切反映產(chǎn)品需求的公開可用任務(wù),芯片供應(yīng)商可以以潛在購買者易于比較的方式展示其產(chǎn)品的精確度和能源使用情況。這種增加的透明度應(yīng)該會導(dǎo)致硬件更好地滿足產(chǎn)品要求。這些模型還應(yīng)提供硬件工程師可用來優(yōu)化其芯片的清晰規(guī)范,并可能提出模型更改,以便提供更高效的實(shí)現(xiàn)。機(jī)器學(xué)習(xí)和硬件之間的這種協(xié)同設(shè)計可以是一個良性循環(huán),在各個領(lǐng)域之間增加有用信息的流動,而這對雙方都有幫助。

圖2:使用不同訓(xùn)練數(shù)據(jù)的Top-One精確度評估結(jié)果

該數(shù)據(jù)集的版本1于2017年8月3日發(fā)布,包含1,881位演講者的64,727條發(fā)言。使用V1訓(xùn)練數(shù)據(jù)對來自TensorFlow教程(基于卷積神經(jīng)網(wǎng)絡(luò)的小尺寸關(guān)鍵詞識別)中的默認(rèn)卷積模型進(jìn)行訓(xùn)練,當(dāng)對V1的測試集進(jìn)行評估時,TopOne得分為85.4%。使用本文中所記錄的數(shù)據(jù)集版本2對相同模型進(jìn)行訓(xùn)練,產(chǎn)生了一個模型,該模型在從V2數(shù)據(jù)中提取的訓(xùn)練集中Top-One得分為88.2%。在V2數(shù)據(jù)上進(jìn)行訓(xùn)練,但是針對V1測試集進(jìn)行評估的模型得到89.7%的Top-One得分,這表明V2訓(xùn)練數(shù)據(jù)在精確度上比V1大大提高。圖2列出了完整結(jié)果。

總而言之,該語音命令數(shù)據(jù)集對于訓(xùn)練和評估多種模型來說是非常有用的,而第二個版本顯示了相較于原始數(shù)據(jù)的等效測試數(shù)據(jù)的改進(jìn)結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音技術(shù)
    +關(guān)注

    關(guān)注

    2

    文章

    226

    瀏覽量

    21438
  • 識別系統(tǒng)
    +關(guān)注

    關(guān)注

    1

    文章

    148

    瀏覽量

    19047
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1222

    瀏覽量

    25275

原文標(biāo)題:Google發(fā)布最新「語音命令」數(shù)據(jù)集,可有效提高關(guān)鍵詞識別系統(tǒng)性能

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    [討論]提高網(wǎng)站關(guān)鍵詞排名的28SEO小技巧

    提高網(wǎng)站關(guān)鍵詞排名的28SEO小技巧關(guān)鍵詞位置、密度、處理 URL中出現(xiàn)關(guān)鍵詞(英文) 網(wǎng)頁標(biāo)題中出現(xiàn)關(guān)鍵詞(1-3
    發(fā)表于 12-01 17:08

    TF-IDF測量文章的關(guān)鍵詞相關(guān)性研究

    停用詞的移除、大小寫字母轉(zhuǎn)化和詞干提取。4)獲取查詢。獲取單詞權(quán)重,對于可疑文檔利用TF-IDF獲得關(guān)鍵詞,并排序得到相應(yīng)的關(guān)鍵詞列表。排在前n關(guān)鍵詞組成
    發(fā)表于 01-26 10:38

    文讀懂語言識別技術(shù)原理1

    、卡內(nèi)基梅隆大學(xué)(CMU)、斯坦福等學(xué)術(shù)界和工業(yè)界非常頂級的研究機(jī)構(gòu)也都加入到語音識別的研究中去。其中,卡耐基梅隆大學(xué)研發(fā)出harpy語音識別系統(tǒng),該系統(tǒng)能夠識別1011
    發(fā)表于 06-28 11:27

    基于Cortex-M處理器的高精度關(guān)鍵詞識別實(shí)現(xiàn)

    更勝籌。關(guān)鍵詞識別神經(jīng)網(wǎng)絡(luò)管道由于要保持“永遠(yuǎn)在線”,KWS 應(yīng)用的功耗預(yù)算受到很大限制。雖然 KWS 應(yīng)用也可在專用 DSP 或高性能 CPU 上運(yùn)行,但更適合在 Arm Cortex-M 微控制器
    發(fā)表于 07-23 06:59

    關(guān)鍵詞優(yōu)化有哪些實(shí)用的方法

    在這里就來和大家起來分享下。關(guān)鍵詞應(yīng)該怎么去優(yōu)化,這是我們的思考,然后就要想對應(yīng)的方法去做優(yōu)化,通常我們做
    發(fā)表于 08-11 01:19

    將cnc數(shù)控機(jī)床關(guān)鍵詞優(yōu)化到百度前三,詢盤無憂

    `CNC加工外貿(mào)如何找客戶,GOOGLE優(yōu)化推廣轉(zhuǎn)化率更高電話CNC數(shù)控加工國外客戶out了,我有妙計將cnc數(shù)控機(jī)床關(guān)鍵詞優(yōu)化到百度前三,詢盤無憂百度關(guān)鍵詞排名+網(wǎng)絡(luò)推廣代運(yùn)營,兩者需要
    發(fā)表于 11-18 14:17

    如何在Cortex-M處理器上實(shí)現(xiàn)高精度關(guān)鍵詞識別

    如何在 Cortex-M 處理器上實(shí)現(xiàn)高精度關(guān)鍵詞識別
    發(fā)表于 02-05 07:14

    可分離卷積神經(jīng)網(wǎng)絡(luò)在 Cortex-M 處理器上實(shí)現(xiàn)關(guān)鍵詞識別

    處理器可以在關(guān)鍵詞識別應(yīng)用中達(dá)到很高的精度,同時通過調(diào)整網(wǎng)絡(luò)架構(gòu)來限制內(nèi)存和計算需求。DS-CNN 架構(gòu)提供最高的精度,而且需要的內(nèi)存和計算資源也低得多。代碼、模型定義和預(yù)訓(xùn)練模型可從獲取。我們?nèi)碌奶峁?/div>
    發(fā)表于 07-26 09:46

    基于HMM的語音識別系統(tǒng)是怎么訓(xùn)練

    基于HMM的語音識別系統(tǒng)是怎么訓(xùn)練的?有哪些步驟?
    發(fā)表于 12-23 06:16

    example/speech_recognition/asr樣例寫了關(guān)鍵詞識別程序,關(guān)鍵詞識別后播放提升音失敗的原因?

    仿造example/speech_recognition/asr樣例寫了關(guān)鍵詞識別程序,識別關(guān)鍵詞
    發(fā)表于 03-10 06:18

    基于強(qiáng)度熵解決中文關(guān)鍵詞識別

    文本的關(guān)鍵詞識別是文本挖掘中的基本問題之。在研究現(xiàn)有基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞識別方法的基礎(chǔ)上,從整個復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征的信息缺失角度來考察各
    發(fā)表于 11-24 09:54 ?7次下載
    基于強(qiáng)度熵解決中文<b class='flag-5'>關(guān)鍵詞</b><b class='flag-5'>識別</b>

    英特爾助力人工智能語言識別

    在近日舉行的NeurIPS大會上,發(fā)布了兩冊英特爾提供支持的關(guān)于口語數(shù)據(jù)的白皮書,其中,《人的語言》主要涉及到“自動語音識別”任務(wù),另
    的頭像 發(fā)表于 01-18 15:31 ?1518次閱讀

    在Raspberry Pi4上實(shí)現(xiàn)面部表情識別系統(tǒng)

    在本教程中,我們將在 Raspberry Pi 4 上實(shí)現(xiàn)情緒識別系統(tǒng)或面部表情識別系統(tǒng)。我們將應(yīng)用預(yù)訓(xùn)練模型從實(shí)時視頻流中識別人的面部表情。 “ FER2013 ”??
    發(fā)表于 08-01 17:30 ?2688次閱讀
    在Raspberry Pi4上實(shí)現(xiàn)<b class='flag-5'>一</b><b class='flag-5'>個</b>面部表情<b class='flag-5'>識別系統(tǒng)</b>

    語音識別喚醒的技術(shù)與應(yīng)用

    語音識別喚醒是指種特定的語音指令,能夠喚醒智能語音助手或語音識別系統(tǒng)。這種特定的語音指令通常是
    的頭像 發(fā)表于 06-24 04:02 ?2258次閱讀

    TinyML變得簡單:關(guān)鍵詞識別(KWS)

    電子發(fā)燒友網(wǎng)站提供《TinyML變得簡單:關(guān)鍵詞識別(KWS).zip》資料免費(fèi)下載
    發(fā)表于 07-13 10:20 ?4次下載
    TinyML變得簡單:<b class='flag-5'>關(guān)鍵詞</b><b class='flag-5'>識別</b>(KWS)