女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中國團隊將計算機“詞匯級唇讀”精度提高到84.41%

獨愛72H ? 來源:DeepTech ? 作者:DeepTech ? 2020-03-19 16:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(文章來源:DeepTech)

近年來,隨著深度學習的迅速發展和廣泛的潛在應用,基于計算機視覺的唇讀技術受到越來越多的關注,它在實踐中有許多重要的應用,如輔助語音識別、生物認證、幫助聽障人士等。但是唇讀任務的難度非常高,一個關鍵點是如何有效地獲取唇部的運動信息,同時抵抗由姿勢、光線變化引起的識別困難,講話人的外貌、講話速度變化等干擾因素,此外,如何把唇語圖像特征與詞匯文本進行精確關聯或者區分同音詞也挑戰重重。

來自浙江工業大學、中國科學院智能信息處理重點實驗室以及中國科學院計算技術研究所的研究人員針對這些問題,提出在局部特征層和全局序列層引入互信息約束,以增強唇部視覺特征與語音內容的關系。通過在一些主流數據集上測試,該團隊提出的方法有望同時具有較好的鑒別能力和魯棒性,以實現有效的唇讀。

唇讀領域有一個重要技術分支即詞匯級唇讀,對于該任務,需要用單個單詞標簽對每個輸入視頻進行注釋,盡管在同一視頻中也存在其他單詞,如上圖所示:(a)中的視頻樣本總共包括 29 幀,被注釋為 “ABOUT”,但是單詞“ABOUT” 的實際幀僅包括時間步驟 T=1219 的幀,這個間隔前后的幀分別對應于單詞是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇語視覺的研究中,我們總是很難劃分一個單詞的確切邊界。

這種特性要求一個好的唇讀模型能夠學習到同一個詞標簽下不同視頻中反映的潛在但一致的特性,從而能夠更多地關注有效的關鍵幀,而較少關注其他無關幀。除了不精確的詞匯邊界挑戰外,對應于同一個詞標簽的視頻樣本總是具有極大的多樣化和外觀變化,如(b)所示,所有這些特性都要求唇讀模型能夠抵抗序列中的噪聲,從而在不同的語音條件下捕獲一致的潛在模式。

同時,由于唇部動作的有效面積有限,不同的詞在說話過程中可能表現出相似的現象。特別是,同音詞的存在,不同的詞看起來可能相同或非常相似,增加了許多額外的困難,這些屬性要求模型能夠發現與幀級別中不同單詞相關的細粒度差異,以便區分每個單詞。為了解決上述問題,研究人員在不同層次上引入了互信息最大化(MIM),以幫助該模型學習魯棒性和區分性表示,從而實現有效的唇讀。

一方面,通過施加局部互信息最大化約束(LMIM)來約束每個時間步產生的特征,使其與語音內容之間具有很強的相關性,從而提高了模型發現精細的嘴唇動作的能力,以及發音相似的單詞之間的細微差別,比如 “spend” 和“spending”;另一方面,引入了全局序列水平上的互信息最大化約束(GMIM),使得模型能夠更加注意區分與語音內容相關的關鍵幀,而且在說話過程中出現的各種噪音也較少。

此外,GMIM 迫使模型學習不同樣本中同一個詞標簽的潛在一致全局模式,同時對姿勢、光照和其他不相關條件的變化具有魯棒性;LMIM 可增強每個時間步與單詞相關的細粒度運動,進一步增強不同單詞之間的差異。通過將這兩類約束結合起來,模型可以自動發現和區分目標詞的有效重要幀,而忽略其他無關幀,進一步提高了識別的精準度。

最后,團隊在兩個大規模的單詞級唇讀數據集 LRW 和 LRW-1000 上與同行提出的主流唇語識別模型方法做了對比評估,這兩個數據集的樣本都是從各種不同的電視節目中收集的,并且演講條件也有很大的變化,涵蓋了包括燈光條件、分辨率、姿勢、性別、化妝等在內的多種說話條件。

LRW 于 2016 年發布,包括 500 個單詞的唇形樣本,1000 多個演講者,訓練集中的實例數達到 488766 個,驗證和測試集中的每個實例數為 25000 個;LRW-1000 數據集則是一個大規模的自然分布的字級基準數據集,總共有 1000 個中文詞匯,總計大約 718018 個樣本實例,持續時間約 57 小時,不過該數據集旨在覆蓋不同語音模式和成像條件下的自然變化,以納入實際應用中遇到的挑戰。

在 LRW 數據集上,引入 LMIM 之后,在基線準確率基礎上提高了約 1.19%,LMIM 有望為主要任務捕獲更具區分性和細粒度的特征,同時引入 GMIM 則把精度提高到了 84.41%,主要得益于其對不同幀的不同關注。

不過,在 LRW-1000 數據集上因其語音條件變化較大,包括燈光條件、分辨率、演講者年齡、姿勢、性別、化妝等,此前行業最佳測試結果僅為 38.19%。在這個數據集上獲得良好的識別效果仍是一個挑戰,新的模型方式獲得了 38.79% 的識別精度,略微優于現有的最新結果。

結果表明,該團隊提出的方法在不使用額外數據或額外的預訓練模型的情況下,在兩個具有挑戰性的數據集上相比其他唇語識別模型,呈現出一種新的實時性能狀態。此外,團隊表示,該方法還可以很容易地修改為其他任務的模型,從而為其他任務的研究提供一些有意義的見解。
(責任編輯:fqj)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7660

    瀏覽量

    90753
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122785
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動化計算機的功能與用途

    工業自動化是指利用自動化計算機來控制工業環境中的流程、機器人和機械,以制造產品或其部件。工業自動化的目的是提高生產率、增加靈活性,并提升制造過程的質量。工業自動化在汽車制造中體現得最為明顯,其中許多
    的頭像 發表于 07-15 16:32 ?90次閱讀
    自動化<b class='flag-5'>計算機</b>的功能與用途

    工業計算機與商用計算機的區別有哪些

    能夠高效穩定地運行,減少停機時間,確保生產效率。那么工業計算機與普通商用計算機有哪些區別呢?一、組件選擇與制造質量:工業組件:使用更寬溫度范圍(如-20°C60
    的頭像 發表于 07-10 16:36 ?155次閱讀
    工業<b class='flag-5'>計算機</b>與商用<b class='flag-5'>計算機</b>的區別有哪些

    云端超級計算機使用教程

    云端超級計算機是一種基于云計算的高性能計算服務,它將大量計算資源和存儲資源集中在一起,通過網絡向用戶提供按需的計算服務。下面,AI部落小編為
    的頭像 發表于 12-17 10:19 ?547次閱讀

    工業中使用哪種計算機

    在工業環境中,工控機被廣泛使用。這些計算機的設計可承受極端溫度、灰塵和振動等惡劣條件。它們比標準消費類計算機更耐用、更可靠。工業計算機可控制機器、監控流程并實時收集數據。其堅固的結構和專業功能
    的頭像 發表于 11-29 14:07 ?705次閱讀
    工業中使用哪種<b class='flag-5'>計算機</b>?

    量子計算機與普通計算機工作原理的區別

    ? 本文介紹了量子計算機與普通計算機工作原理的區別。 量子計算是一個新興的研究領域,科學家們利用量子力學,制造出具有革命性能力的計算機。雖然現在的量子
    的頭像 發表于 11-24 11:00 ?1468次閱讀
    量子<b class='flag-5'>計算機</b>與普通<b class='flag-5'>計算機</b>工作原理的區別

    工業計算機類型介紹

    ,各行各業80%的企業依靠計算機進行日常運營,使其成為成功不可或缺的工具。從小型企業大型企業,計算機已成為工業領域的支柱,推動著增長并推動企業向前發展。在本文中,我們將
    的頭像 發表于 11-04 15:56 ?662次閱讀
    工業<b class='flag-5'>計算機</b>類型介紹

    工業中使用哪種類型的計算機

    工業計算機:穩健應用的基本解決方案各行各業對強大計算解決方案的需求日益增長,導致人們高度依賴工業計算機。這些專用系統專為典型消費電腦無法適應的環境而設計。從制造業
    的頭像 發表于 10-22 17:10 ?685次閱讀
    工業中使用哪種類型的<b class='flag-5'>計算機</b>?

    TAS5630B PBTL模式下,將音頻信號幅度提高到1.5倍,后的功放需不需要提高功率?

    我使用的TAS5630B,PBTL模式,之前音頻信號聲音偏小,現在將音頻信號幅度提高到1.5倍,不知道后的功放需不需要提高功率,還是音頻信號幅度提高不影響后
    發表于 10-16 08:08

    計算機接口位于什么之間

    計算機接口是計算機硬件和軟件之間、計算機與外部設備之間以及計算機各部件之間傳輸數據、控制信息和狀態信息的硬件設備和軟件程序。它在計算機系統中
    的頭像 發表于 10-14 14:02 ?1299次閱讀

    計算機存儲系統的構成

    計算機存儲系統是計算機中用于存放程序和數據的設備或部件的集合,它構成了計算機信息處理的基礎。一個完整的計算機存儲系統通常包括多個層次的存儲器,從高速緩存(Cache)
    的頭像 發表于 09-26 15:25 ?2527次閱讀

    簡述計算機總線的分類

    計算機總線作為計算機系統中連接各個功能部件的公共通信干線,其結構和分類對于理解計算機硬件系統的工作原理至關重要。以下是對計算機總線結構和分類的詳細闡述,內容將涵蓋總線的基本概念、內部結
    的頭像 發表于 08-26 16:23 ?5168次閱讀

    晶體管計算機和電子管計算機有什么區別

    晶體管計算機和電子管計算機作為計算機發展史上的兩個重要階段,它們在多個方面存在顯著的區別。以下是對這兩類計算機在硬件、性能、應用以及技術發展等方面區別的詳細闡述。
    的頭像 發表于 08-23 15:28 ?3600次閱讀

    簡述計算機的I/O控制方式

    計算機的I/O(輸入/輸出)控制方式是計算機系統中至關重要的部分,它決定了CPU與外設之間數據交換的方式和效率。隨著計算機技術的不斷發展,I/O控制方式也經歷了從簡單復雜、從低效
    的頭像 發表于 08-20 10:55 ?2359次閱讀

    計算機系統的組成和功能

    計算機系統是一個復雜而龐大的概念,它涵蓋了計算機硬件、軟件以及它們之間相互作用的所有元素。為了全面而深入地探討計算機系統,本文將從定義、組成、功能、發展歷程以及未來趨勢等方面進行詳細闡述。
    的頭像 發表于 07-24 17:41 ?2390次閱讀

    DRAM在計算機中的應用

    DRAM(Dynamic Random Access Memory,動態隨機存取存儲器)在計算機系統中扮演著至關重要的角色。它是一種半導體存儲器,用于存儲和快速訪問數據,是計算機主內存的主要組成部分。以下是對DRAM在計算機中的
    的頭像 發表于 07-24 17:04 ?2987次閱讀