女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌發布Translatotron語音翻譯系統

DPVg_AI_era ? 來源:lq ? 2019-05-19 10:12 ? 次閱讀

今天,谷歌發布Translatotron語音翻譯系統,這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言,同時保持說話人的聲音和節奏的翻譯模型。

讓說不同語言的人更容易地、直接地相互交流,這是語音到語音的翻譯系統(Speech-to-speech translation)的目的,這樣的系統在過去幾十年里取得了不錯的進展。

今天,谷歌發布Translatotron語音翻譯系統,這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言,同時保持說話人的聲音和節奏的翻譯模型。

傳統上,語音翻譯系統通常有3個獨立的部分:自動語音識別將源語音轉錄為文本,機器翻譯將轉錄的文本翻譯成目標語言,最后,文本到語音合成(TTS)系統將翻譯文本轉換成目標語言的語音。

許多商業語音到語音翻譯的產品都采用這樣的系統,包括Google Translate。但是,這類系統依賴于中間文本,準確率不高,而且效率較低。

谷歌的新工具Translatotron舍棄了將語音翻譯為文本再返回語音的步驟,而是采用端到端的技術,直接將說話者的聲音翻譯成另一種語言。這使它能夠快速地翻譯,但更重要的是,能夠更容易反映說話人的語調和節奏。

在論文《基于序列到序列模型的直接語音到語音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人員提出一種基于單個注意力序列到序列模型的直接語音到語音翻譯的新實驗系統,該系統不依賴于中間文本表示。

這個系統被稱為Translatotron,避免了將任務劃分為獨立的階段,比級聯系統更有優勢,包括推理速度快、自然地避免了識別和翻譯之間的復合錯誤,能夠在翻譯后保留原說話者的聲音,以及能夠更好地處理不需要翻譯的單詞(如名稱和專有名詞)。

Translatotron:不依賴中間文本,直接翻譯語音

語音翻譯端到端模型的出現始于2016年,當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。2017年,我們證明了這種端到端模型可以超越級聯模型(cascade models)。

最近有許多工作進一步改進了端到端語音到文本翻譯模型的方法,包括同樣來自谷歌的利用弱監督數據的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進一步,證明了單個序列到序列模型可以直接將一種語言的語音翻譯成另一種語言的語音,而不需要像級聯系統那樣依賴于任何一種語言的中間文本表示。

Translatotron基于一個sequence-to-sequence網絡,它將源聲譜圖(spectrograms)作為輸入,生成目標語言翻譯內容的聲譜圖。

輸入和生成的聲譜圖

此外,Translatotron還使用了另外兩個單獨訓練的組件:一個神經聲音編碼器(neuralvocoder),可以將輸出聲譜圖轉換為時域波形;另外,還可以選擇使用一個speaker encoder,用于在合成翻譯語音時保持源speaker的語音特征。

在訓練過程中,序列到序列模型使用一個多任務目標預測源和目標轉錄文本,同時生成目標聲譜圖。然而,推理過程中不需要使用轉錄文本或其他中間文本表示。

Translatotron的模型結構

性能

谷歌通過測量BLEU分數來驗證Translatotron的翻譯質量。該分數是通過語音識別系統轉錄的文本計算的。雖然結果落后于傳統的級聯系統,但已經證明了端到端直接語音到語音轉換的可行性。

對比Translatotron到基線級聯方法的直接語音到語音翻譯輸出,在這種情況下,兩個系統都提供合適的翻譯并使用相同的規范語音很自然的說話。

保持聲音特征

通過結合揚聲器編碼器網絡,Translatotron還能夠在翻譯的語音中,保留原始說話者的聲音特征,這使得翻譯的語音聽起來更自然,不那么刺耳。

此功能利用了之前針對TTS的演講者驗證和演講者調整的Google研究。揚聲器編碼器在演講者驗證任務上進行預訓練,學習從簡短的示例話語對揚聲器特性進行編碼。在該編碼上調節頻譜圖解碼器,即使內容是在不同的語言中,也可以合成具有類似揚聲器特性的語音。

谷歌提供了諸多使用示例,如下面的例子,Translatotron將西班牙語對話轉換為英語,下面的音頻分別是西班牙語輸入、真人參考翻譯,以及Translatotron的翻譯。

(由于微信智能插入一個音頻,請點擊原文鏈接聽更多語音。)

Translatotron的翻譯:

更多示例:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個例子中,Translatotron提供比基線級聯模型更準確的平移,同時能夠保留原始說話者的聲音特征。保留原始說話者聲音的Translatotron輸出訓練的數據,少于使用規范聲音的數據,因此它們產生的翻譯略有不同。

結論

谷歌聲稱,Translatotron是第一個可以直接將一種語言的語音,翻譯成另一種語言的語音的端到端模型。它還能夠在翻譯的語音中保留源說話者的聲音。谷歌希望這項工作可以作為未來端到端語音轉語音翻譯系統研究的起點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3775

    瀏覽量

    137127
  • 谷歌
    +關注

    關注

    27

    文章

    6223

    瀏覽量

    107520
  • 語音
    +關注

    關注

    3

    文章

    399

    瀏覽量

    38529

原文標題:同聲傳譯被攻陷!谷歌發布Translatotron直接語音翻譯系統

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    “System Level EOS Testing Method”可以翻譯為: “系統級電性過應力測試方法”

    “System Level EOS Testing Method”可以翻譯為: “系統級電性過應力測試方法”
    的頭像 發表于 05-05 15:55 ?167次閱讀
    “System Level EOS Testing Method”可以<b class='flag-5'>翻譯</b>為: “<b class='flag-5'>系統</b>級電性過應力測試方法”

    谷歌發布混合量子模擬方法

    據外媒報道,谷歌發布了一種混合量子模擬方法;論文已經在Nature正式發表,谷歌混合量子模擬器的核心在于將模擬和數字技術相結合;是全新的模擬-數字方案,可在保持速度的同時增強可控制性,這一方案顛覆了
    的頭像 發表于 04-22 17:17 ?297次閱讀

    谷歌“減法”新動作:砍掉耳機按鍵喚醒朗讀功能

    電子發燒友網報道(文/莫婷婷)近期,谷歌宣布將對耳機上的 Google Assistant語音助手功能進行調整,取消通過觸控喚醒助理“自動朗讀未讀通知”的功能。谷歌表示,要想完成該功能可以通過
    的頭像 發表于 02-22 22:56 ?2318次閱讀
    <b class='flag-5'>谷歌</b>“減法”新動作:砍掉耳機按鍵喚醒朗讀功能

    AI助力實時翻譯耳機

    是一種能夠實時將一種語言翻譯成另一種語言的耳機設備。它通常由一個耳機和一個配套的應用程序組成,用戶可以通過應用程序選擇需要翻譯的語言,并通過耳機聽到翻譯結果。 2 實時翻譯耳機是如何工
    的頭像 發表于 01-24 11:14 ?1380次閱讀
    AI助力實時<b class='flag-5'>翻譯</b>耳機

    基于語音識別的智能會議系統具備哪些交互功能

    標貝科技專注智能語音交互領域多年,在語音識別和語音合成領域有著多項大型企業合作案例,標貝與多個智能會議系統廠商合作,成功將語音識別技術在智能
    的頭像 發表于 12-20 10:35 ?516次閱讀

    谷歌與三星聯合發布Android XR操作系統

    系統整合了谷歌在人工智能、增強現實(AR)以及虛擬現實(VR)領域的技術積累,充分展現了谷歌在技術創新方面的實力。通過這一系統,用戶將能夠享受到更加逼真、生動的虛擬世界,以及更加智能、
    的頭像 發表于 12-16 10:08 ?515次閱讀

    谷歌正式發布Gemini 2.0 性能提升近兩倍

    在智能體時代,谷歌再次引領技術潮流,正式發布了其最新力作——Gemini 2.0。這款AI模型不僅在性能上實現了顯著提升,更是在多模態表現和原生工具應用方面展現了前所未有的強大功能。 Gemini
    的頭像 發表于 12-12 14:22 ?743次閱讀

    LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠,快來體驗!

    01. 工具介紹 aicode.llmworld.net 問丫·碼語翻譯俠 是一款由LLMWorld新推出的代碼翻譯工具,支持各種語言之間的翻譯,包括計算機語言到自然語言。 02.
    的頭像 發表于 12-09 11:11 ?882次閱讀
    LLMWorld上線代碼<b class='flag-5'>翻譯</b>新工具——問丫·碼語<b class='flag-5'>翻譯</b>俠,快來體驗!

    基于Arm Neoverse N2實現自動語音識別技術

    自動語音識別 (Automatic Speech Recognition) 技術已經深入到現代生活的方方面面,廣泛應用于從語音助手、轉錄服務,到呼叫中心分析和語音轉文本翻譯等方面,為各
    的頭像 發表于 11-15 11:35 ?917次閱讀
    基于Arm Neoverse N2實現自動<b class='flag-5'>語音</b>識別技術

    谷歌計劃12月發布Gemini 2.0模型

    近日,有消息稱谷歌計劃在12月發布其下一代人工智能模型——Gemini 2.0。這一消息引發了業界的廣泛關注,因為谷歌在人工智能領域一直保持著領先地位,而Gemini系列模型更是其重要的產品之一。
    的頭像 發表于 10-29 11:02 ?1048次閱讀

    阿里國際發布翻譯大模型Marco

    近日,阿里國際正式推出了其翻譯大模型——Marco。這款模型已在阿里國際AI官網Aidge上線,并向全球用戶開放使用。
    的頭像 發表于 10-17 16:07 ?599次閱讀

    谷歌推出Gemini Live,開啟AI語音聊天新紀元

    在萬眾矚目的Pixel 9系列手機發布會上,谷歌震撼宣布了一項創新服務——Gemini Live,該服務自今日起,率先向使用英語的Gemini Advanced訂閱用戶敞開大門。這一舉措標志著谷歌在人工智能
    的頭像 發表于 08-15 17:29 ?979次閱讀

    谷歌發布新型大語言模型Gemma 2

    在人工智能領域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發人員,正式發布了其最新研發的大語言模型——Gemma 2。這款模型以其高效能和低成本的特點,引起了業界的廣泛關注。
    的頭像 發表于 06-29 09:48 ?668次閱讀

    車載語音識別系統語音數據采集標注案例

    車載語音識別系統是指利用機器學習算法實現的一種自然語言處理技術,載語音識別系統通過辨別聲音的語調、語速和音量,將所聽到的語音轉化成可讀取的語
    的頭像 發表于 06-19 15:52 ?589次閱讀
    車載<b class='flag-5'>語音</b>識別<b class='flag-5'>系統</b><b class='flag-5'>語音</b>數據采集標注案例

    車載語音識別系統語音數據采集標注案例

    車載語音識別系統是指利用機器學習算法實現的一種自然語言處理技術,載語音識別系統通過辨別聲音的語調、語速和音量,將所聽到的語音轉化成可讀取的語
    的頭像 發表于 06-19 15:49 ?797次閱讀