女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關懷語言障礙者,谷歌推出突破性工具

Gv1N_smartman16 ? 來源:YXQ ? 2019-07-28 10:16 ? 次閱讀

近日 Google Brain 團隊對外發布了 Parrotron 項目,幫助人和設備更準確地理解具有語音障礙的人。Parrotron 從音頻分析入手,從語音信號的角度來解決問題。它通過單個端到端深度神經網絡訓練,將來自語音障礙人士的語音,直接轉換為流利的合成語音,從而幫助他們解決交流上的問題。

Dimitri Kanevsky,出生于 50 年代的俄羅斯,他的成長階段經歷了中蘇冷戰,但他仍然完成學業,并獲得了數學博士學位。

他的求學、工作足跡從俄羅斯開始,輾轉于以色列、德國,最終選擇留在了美國,并成為了谷歌的研究科學家,專注于語音識別算法領域。

似乎是一個學霸精英的人生路徑:受到良好的教育,獲得美國綠卡、光鮮的工作、152 項美國科學技術專利,最后在硅谷登頂人生巔峰。

故事卻遠遠沒這么簡單,Dimitri Kanevsky并不是一個普通人。大多數人都難以想到,他還是聽障人群中的一員。

Dimitri Kanevsky在一歲時,因為藥物導致了耳聾,但他的家庭依舊為他選擇了正常的教育,他從小就開始學習讀唇、發聲,一直就讀于普通學校。并在十幾歲的時候,通過俄語發音的輔助,開始學習英語。

但在學習英語時,因為聽力障礙、俄語發音差別等原因,他在語言交流上存在很大的障礙。他說出的語句比較模糊,常常是對方聽不懂的表達。甚至連對自己的家人的口頭關懷,都有可能無法遞達。

簡單來說,他說的英語大多數人很難直接聽懂,為了解決自己的問題,也幫助更多和自己面臨類似問題的人群,Dimitri Kanevsky一直在攻克語音識別方向的課題。

有時只為完成一些普通的交流

Dimitri Kanevsky需要借助語音轉文字的工具

在醫學上,這種說話不清楚的情況稱為「構音障礙 dysarthria」。據統計,因為身體疾病而導致構音障礙的情形,在全世界多達一百萬人。

構音障礙是由于神經病變,與言語有關的肌肉麻痹、收縮力減弱或運動不協調所致的言語障礙,通俗的說法是「口齒不清」。

比如中風,大腦麻痹,帕金森病,唐氏綜合癥, ALS(漸凍癥)等諸多疾病,都會造成這一狀況。

對方說了嘰里咕嚕的一堆

你聽到的卻是嗚嗚哇哇的一串雜音...

同樣在谷歌,一位叫Aubrie Lee 的品牌市場經理,被診斷出罕見的肌肉萎縮癥(漸凍癥),導致她長時間要在輪椅上度過。

全身肌肉的不斷流失,也造成了她在交流上的困難。Aubrie 在聽力和發音上都異常吃力,還因為無法微笑而常常被人誤解。此外她還擁有多種口音,發音并不清晰,在對話時對方往往無法明白她的意思。

為了幫助 Dimitri Kanevsky 和 Aubrie Lee 這樣的同伴,解決他們在語言上的難題,構音困難逐漸成了谷歌 AI 研究團隊的一個科研方向。

關懷語言障礙者,谷歌推出突破性工具

幾年前,Kanevsky 帶著 30 年的語音識別經驗,加入谷歌的 AI 研究組,那時還沒有能讓他和其他人正常溝通的便捷工具。每次開會, Kanevsky 都需要提前預定 CART 服務,依賴字幕員進入到會議中,將語音信息敲到屏幕上進行對話。

同樣的,Aubrie 和自己同事們,也都需要花費很大的力氣,才能完成常人輕松勝任的工作交流。但這種窘境,正在慢慢地成為歷史。

2019 年 2 月,谷歌推出了一款App——Live Transcribe ,為便攜式的語言轉化帶來了曙光。它是一款即時轉錄真實世界語音的應用程序,使用手機自帶的麥克風,即可將語音轉換為實時顯示的文字。

隨后,在 5 月份的谷歌I/O 大會上,Project Euphoria 被提出,這個計劃為 ALS 導致的語言受損人群,提供一套語音到文字的解決方案。

Project Euphoria 中

谷歌訓練AI 模型以適應語言障礙

在這個月,谷歌推出了一款新的 AI 工具 Parrotron,能夠直接將模糊的聲音,轉化成標準的合成音。這將解決語言障礙的技術又往前推進了一步。

Parrotron 由端到端的深度神經網絡組成,從音頻分析的角度入手,在使用時,測試者對著手機等設備說話,就能快速的得到轉述后的標準發音。

在論文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中,Parrotrn 表現優異,語音識別和轉化的正確率都有了新的突破。

Parrotron:將模糊話語,翻譯成清晰的語音

那這項看起來黑科技滿滿的技術,究竟是怎么做到的呢?

Parrotron 是一個端到端的序列到序列模型,使用輸入/輸出語音對的并行語料庫訓練,建立了模糊音與正常語句之間的映

Parrotron的結構流程示意圖

網絡模型由注意力機制的編碼器和解碼器組成,最后由聲碼器合成時域波形,提供預測出的音頻信號。

編碼器將聲學幀序列轉換為隱藏的特征表示,解碼器將解析出表示以預測出頻譜圖。

操作上分為兩個步驟:首先,為標準流暢的音頻構建語音到語音轉換模型,然后調整模型參數將模糊語音作為輸入,讓模型學會分辨和識別

Kanevsky 和另一員工使用Parrotron

為了模擬 ALS 患者的語音特征,他們使用來自 Project Euphonia 的 ALS 語音語料庫,通過合成語言的方式制造模糊的語句,作為訓練數據。

而對特定的個人,就由本人提供錄制的素材。

在經過訓練后,轉換模型能夠排除語言中的干擾因素,比如重音、韻律和背景噪音等影響;同時忽略掉所有非語言信息的干擾,包括說話者特征,環境因素,說話方式,僅分析和處理談話的內容。

Parrontron 前兩位測試者:毫無懸念

要驗證 Parrotron 的實際效果,自然還要看它在實踐中的表現。而測試的最佳人選,毫無疑問落到了Dimitri Kanevsky 和Aubrie Lee身上。

在實驗中,Dimitri 錄制了一個 15 小時長的語料庫,讓模型學習他講話時的細微之處。通過學習,模型在最后的翻譯中,在測試集里的翻譯錯誤率,從開始的 89% 降低到了 32%

換句話說,使用 Parrotron 轉錄的語音,對方或者ASR (語音識別)系統能夠輕松的聽懂他了。

Kanevsky 使用Parrotron的詳情

隨后, Aubrie Lee 也進行了測試,通過她貢獻的 1.5 小時講話內容,模型翻譯出的準確的語音,也讓她實現了清楚表達的愿望

AI for Social Good:人工智能的使命

人工智能打造的無障礙項目,在最近幾年被頻繁地提出。許多極具關懷的技術紛紛出現,在努力幫助殘障人士打開新奇的大門。

當然,技術在服務這些人的同時,也被這些特別的群體所推動。比如Dimitri Kanevsky,因為深知構音障礙帶來的困境,他一直致力于語音辨識和通訊研究的研究工作。而Aubrie Lee則用熱烈而蓬勃的生活態度,鼓舞和督促著更多對殘障人群的研究投入。

Aubrie 還是跨學科藝術家、設計師

活躍在多個為殘疾人權益斗爭的平臺上

雖然目前的數據顯示,情況還并不樂觀:在全球所有的殘障人士中,只有十分之一的人,獲得了相應的技術工具。但所幸的是,隨著一些喜人的進步,很多情況都在發生改變。

作為科技大廠的谷歌,還在實施他們「AI for social good」的計劃,而諸如 Parrotron 之類的工具,大概就是朝著美好愿景踏進的腳印。

在人工智能技術風靡世界的當下,我們看到了 AI 對藝術的改造和創造力,對社會生活的積極推動,但也看到了有人利用 AI 惡意換臉、拼接、無中生有。

希望 AI 能回歸科學的初心,幫助更多需要幫助的人,Make the world a better place!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6223

    瀏覽量

    107517
  • 語音識別
    +關注

    關注

    39

    文章

    1773

    瀏覽量

    113898

原文標題:谷歌的語音識別利器,最先造福了自己的員工

文章出處:【微信號:smartman163,微信公眾號:網易智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    ITEN與A*STAR IME宣布突破性固態電池的先進封裝整合

    微型固態電池領域的全球領導ITEN與先進封裝研究領域的領導新加坡科技研究局微電子研究所(A*STAR IME)宣布了一項突破性成果:利用A*STAR IME的尖端先進封裝平臺成功實現ITEN微型
    的頭像 發表于 05-22 13:08 ?80次閱讀

    Profinet轉CanOpen協議轉換網關,破解工業設備“語言障礙

    在鋁業這個金屬與數據共舞的領域,小疆智控Profinet轉CanOpen協議轉換網關正悄然改變著工業通信的底層邏輯。它不僅破解了設備互聯的"語言障礙",更通過數據橋梁的架設,讓
    的頭像 發表于 05-11 10:52 ?119次閱讀
    Profinet轉CanOpen協議轉換網關,破解工業設備“<b class='flag-5'>語言障礙</b>”

    德施曼重磅發布五大突破性技術及多款重磅新品,開啟AI智能管家時代

    志凌重磅發布了五大突破性技術,并帶來多款重磅新品;來自全國各地的智能鎖生態合作伙伴,行業知名機構、權威媒體現場見證了AI如何讓智能家居更有靈性,德施曼如何以科技,
    的頭像 發表于 04-23 20:59 ?257次閱讀
    德施曼重磅發布五大<b class='flag-5'>突破性</b>技術及多款重磅新品,開啟AI智能管家時代

    華為公布AI基礎設施架構突破性新進展

    近日,華為公司常務董事、華為云計算CEO張平安在華為云生態大會2025上公布了AI基礎設施架構突破性新進展——推出基于新型高速總線架構的CloudMatrix 384超節點集群,并宣布已在蕪湖數據中心規模上線。
    的頭像 發表于 04-12 15:09 ?781次閱讀

    NVIDIA實現神經網絡渲染技術的突破性增強功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經網絡渲染技術的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預覽版中增加神經網絡著色技術,讓開發
    的頭像 發表于 04-07 11:33 ?335次閱讀

    語言康復行業首家!陽光語言正式接入DeepSeek

    “新”與“老”的結合,將融合和迸發更多可能,為更多語言障礙提供更加科學、智能、精準的服務。 智能問答 一觸即達 在陪伴孩子成長的過程中,家長會面臨方方面面的問題,發音不準、口吃、語言
    的頭像 發表于 03-06 14:14 ?292次閱讀
    <b class='flag-5'>語言</b>康復行業首家!陽光<b class='flag-5'>語言</b>正式接入DeepSeek

    飛騰軌交國產主板GM-FT2000,為交通運輸帶來突破性的發展

    在科技飛速發展的今天,交通運輸領域也在不斷尋求創新與突破,以滿足人們日益增長的出行需求和高效物流的要求。而高能計算機推出的飛騰軌交國產主板GM - FT2000,宛如一顆璀璨的新星,為交通運輸行業帶來了突破性的發展。
    的頭像 發表于 02-12 17:33 ?405次閱讀

    Auracast廣播音頻創新實時語言翻譯解決方案

    世界正朝著互聯化方向發展,但語言障礙仍然為全球溝通和文化交流帶來挑戰。作為藍牙技術聯盟的長期推廣公司,東芝(Toshiba)研發出將AI同聲傳譯與Auracast廣播音頻技術相結合的創新解決方案,為打破公共場所和教育環境中的語言障礙帶來了更多可能。
    的頭像 發表于 01-13 14:39 ?739次閱讀

    中科創達旗下MM Solutions推出突破性視頻降噪算法

    在CES 2025上,中科創達旗下全球領先的移動和工業圖形圖像視覺技術公司MM Solutions重磅推出一款具有突破性的視頻降噪算法——MMS AI Video Denoiser。這款由先進AI
    的頭像 發表于 01-13 11:41 ?831次閱讀

    谷歌宣布量子計算芯片取得”突破性進展”

    行業芯事行業資訊
    電子發燒友網官方
    發布于 :2024年12月11日 11:43:12

    全新NVIDIA NIM微服務實現突破性進展

    全新 NVIDIA NIM 微服務實現突破性進展,可助力氣象技術公司開發和部署 AI 模型,實現對降雪、結冰和冰雹的預測。
    的頭像 發表于 11-21 10:07 ?589次閱讀

    泰克推出突破性功率測量工具,從容應對全球電氣化加速創新步伐

    新產品系列包括業界領先的射頻隔離電流探頭和三通道雙向電源 泰克公司今日宣布推出一系列突破性功率測量儀器,旨在助力對功率容量和效率有更高要求的行業,促進行業創新。全新?TICP?系列?IsoVu
    發表于 11-13 09:12 ?276次閱讀
    泰克<b class='flag-5'>推出</b><b class='flag-5'>突破性</b>功率測量<b class='flag-5'>工具</b>,從容應對全球電氣化加速創新步伐

    為空間受限的應用提供突破性的動力

    電子發燒友網站提供《為空間受限的應用提供突破性的動力.pdf》資料免費下載
    發表于 08-26 14:28 ?0次下載
    為空間受限的應用提供<b class='flag-5'>突破性</b>的動力

    蘋果獲得一項突破性智能戒指技術的專利

    8月23日傳來新動態,美國商標與專利局最新披露的清單中,蘋果公司赫然獲得了一項突破性智能戒指技術的專利。這款創新之作,深度融合了尖端傳感器技術,旨在為用戶提供前所未有的健康監測體驗。
    的頭像 發表于 08-23 15:59 ?613次閱讀

    谷歌Gemma 2大語言模型升級發布,性能與安全雙重飛躍

    近日,谷歌面向全球科研界與開發群體隆重推出了全新升級的Gemma 2大語言模型,標志著人工智能技術在語言處理領域的又一次重大進步。此次發布
    的頭像 發表于 07-02 10:20 ?683次閱讀