蘋果Siri深度學習語音合成技術揭秘

Siri 是一個使用語音合成技術與人類進行交流的個人助手。從 iOS 10 開始，蘋果已經在 Siri 的語音中用到了深度學習，iOS 11 中的 Siri 依然延續這一技術。使用深度學習使得 Siri 的語音變的更自然、流暢，更人性化。?

介紹

語音合成，也就是人類聲音的人工產品，被廣泛應用于從助手到游戲、娛樂等各種領域。最近，配合語音識別，語音合成已經成為了 Siri 這樣的語音助手不可或缺的一部分。

如今，業內主要使用兩種語音合成技術：單元選擇 [1] 和參數合成 [2]。單元選擇語音合成技術在擁有足夠高質量錄音時能夠合成最高質量的語音，也因此成為商業產品中最常用的語音合成技術。另外，參數合成能夠提供高度可理解的、流暢的語音，但整體質量略低。因此，在語料庫較小、低占用的情況下，通常使用參數合成技術?，F代的單元選擇系統結合這兩種技術的優勢，因此被稱為混合系統。混合單元選擇方法類似于傳統的單元選擇技術，但其中使用了參數合成技術來預測選擇的單元。

近期，深度學習對語音領域沖擊巨大，極大的超越了傳統的技術，例如隱馬爾可夫模型。參數合成技術也從深度學習技術中有所收益。深度學習也使得一種全新的語音合成技術成為了可能，也就是直接音波建模技術（例如 WaveNet）。該技術極有潛力，既能提供單元選擇技術的高質量，又能提供參數選擇技術的靈活性。然而，這種技術計算成本極高，對產品而言還不成熟。為了讓所有平臺的 Siri 語音提供最佳質量，蘋果邁出了這一步，在設備中的混合單元選擇系統上使用了深度學習。

蘋果深度語音合成技術工作原理

為個人助手建立高質量的文本轉語音（TTS）系統并非簡單的任務。首先，第一個階段是找到專業的播音人才，她／他的聲音既要悅耳、易于理解，又要符合 Siri 的個性。為了覆蓋各種人類語音，我們首先在錄音棚中記錄了 10-20 小時的語音。錄制的腳本從音頻簿到導航指導，從提示答案到笑話，不一而足。通常來說，這種天然的語音不能像錄制的那樣使用，因為不可能錄制助手會說的每一句話。因此，單元選擇 TTS 系統把記錄的語音切片成基礎元件，比如半音素，然后根據輸入文本把它們重新結合，創造全新的語音。在實踐中，選擇合適的音素并組合起來并非易事，因為每個音素的聲學特征由相鄰的音素、語音的韻律所決定，這通常使得語音單元之間不相容。圖 1 展示了如何使用被分割為半音素的數據庫合成語音。

蘋果Siri深度學習語音合成技術揭秘

圖 1：展示了使用半音素進行單元選擇語音合成。合成的發音是「Unit selection synthesis」，圖的頂部是使用半音素的標音法。相應的合成波形與光譜圖在圖下部分。豎線劃分的語音段是來自數據集的持續語音段，數據集可能包含一個或多個半音素。

單元選擇 TTS 技術的基本難題是找到一系列單元（例如，半音素），既要滿足輸入文本、預測目標音韻，又要能夠在沒有明顯錯誤的情況下組合在一起。傳統方式上，該流程包含兩部分：前端和后端（見圖 2），盡管現代系統中其界限可能會很模糊。前端的目的是基于原始文本輸入提供語音轉錄和音韻信息。這包括將包含數字、縮寫等在內的原始文本規范化寫成單詞，并向每個單詞分配語音轉錄，解析來自文本的句法、音節、單詞、重音、分句。要注意，前端高度依賴語言。

蘋果Siri深度學習語音合成技術揭秘

圖 2：文本轉語音合成流程。

使用由文本分析模塊創建的符號語言學表征，音韻生成模塊預測音調、音長等聲學特征的值。這些值被用于選擇合適的單元。單元選擇的任務極其復雜，所以現代的合成器使用機器學習方法學習文本與語音之間的一致性，然后根據未知文本的特征值預測其語音特征值。這一模塊必須要在合成器的訓練階段使用大量的文本和語音數據進行學習。音韻模型輸入的是數值語言學特征，例如音素特性、音素語境、音節、詞、短語級別的位置特征轉換為適當的數值形式。音韻模型的輸出由語音的數值聲學特征組成，例如頻譜、基頻、音素時長。在合成階段，訓練的統計模型用于把輸入文本特征映射到語音特征，然后用來指導單元選擇后端流程，該流程中聲調與音長的合適度極其重要。

與前端不同，后端通常是語言獨立的。它包括單元選擇和波形拼接部分。當系統接受訓練時，使用強制對齊將錄制的語音和腳本對齊（使用語音識別聲學模型）以使錄制的語音數據被分割成單獨的語音段。然后使用語音段創建單元數據庫。使用重要的信息，如每個單元的語言環境（linguistic context）和聲學特征，將該數據庫進一步增強。我們將該數據叫作單元索引（unit index）。使用構建好的單元數據庫和指導選擇過程的預測音韻特征，即可在語音空間內執行 Viterbi 搜索，以找到單元合成的最佳路徑（見圖 3）。

蘋果Siri深度學習語音合成技術揭秘

圖 3. 使用 Viterbi 搜索在柵格中尋找單元合成最佳路徑。圖上方是合成的目標半音素，下面的每個框對應一個單獨的單元。Viterbi 搜索找到的最佳路徑為連接被選中單元的線。

該選擇基于兩個標準：（1）單元必須遵循目標音韻；（2）在任何可能的情況下，單元應該在單元邊界不產生聽覺故障的情況下完成拼接。這兩個標準分別叫作目標成本和拼接成本。目標成本是已預測的目標聲學特征和從每個單元抽取出的聲學特征（存儲在單元索引中）的區別，而拼接成本是后項單元之間的聲學區別（見圖 4）。總成本按照如下公式計算：

蘋果Siri深度學習語音合成技術揭秘

其中 u_n 代表第 n 個單元，N 代表單元的數量，w_t 和 w_c 分別代表目標成本和拼接成本的權重。確定單元的最優順序之后，每個單元波形被拼接，以創建連續的合成語音。

蘋果Siri深度學習語音合成技術揭秘

圖 4. 基于目標成本和拼接成本的單元選擇方法。

Siri 新聲音背后的技術

因為隱馬爾可夫模型對聲學參數的分布直接建模，所以該模型通常用于對目標預測 [5][6] 的統計建模，因此我們可以利用如 KL 散度那樣的函數非常簡單地計算目標成本。然而，基于深度學習的方法通常在參數化的語音合成中更加出色，因此我們也希望深度學習的優勢能轉換到混合單元選擇合成（hybrid unit selection synthesis）中。

Siri 的 TTS 系統的目標是訓練一個基于深度學習的統一模型，該模型能自動并準確地預測數據庫中單元的目標成本和拼接成本（concatenation costs）。因此該方法不使用隱馬爾可夫模型，而是使用深度混合密度模型（deep mixture density network /MDN）[7][8] 來預測特征值的分布。MDS 結合了常規的深度神經網絡和高斯混合模型（GMM）。

常規 DNN 是一種在輸入層和輸出層之間有多個隱藏層的人工神經網絡。因此這樣的深度神經網絡才能對輸入特征與輸出特征之間的復雜和非線性關系建模。通常深度神經網絡使用反向傳播算法通過誤差的傳播而更新整個 DNN 的權重。相比之下，GMM 在使用一系列高斯分布給定輸入數據的情況下，再對輸出數據的分布進行建模。GMM 通常使用期望最大化（expectation maximization /EM）算法執行訓練。MDN 結合了 DNN 和 GMM 模型的優點，即通過 DNN 對輸入和輸出之間的復雜關系進行建模，但是卻提高概率分布作為輸出（如下圖 5）。

蘋果Siri深度學習語音合成技術揭秘

圖 5：用于對聲音特征的均值和方差建模的深度混合密度網絡，輸出的聲學均值和方差可用于引導單元選擇合成

對于 Siri 來說，我們使用了基于 MDN 統一的目標和拼接模型，該模型能預測語音目標特征（頻譜、音高和音長）和拼接成本分布，并引導單元的搜索。因為 MDN 的分布是一種高斯概率表分布形式，所以我們能使用似然度函數作為目標和拼接成本的損失函數：

蘋果Siri深度學習語音合成技術揭秘

其中 x_i 是第 i 個目標特征，μ_i 為預測均值，而 (σ_i)^2 為預測方差。在實際的成本計算中，使用負對數似然函數和移除常數項將變得更加方便，經過以上處理將簡化為以下簡單的損失函數：

其中 w_i 為特征權重。

當我們考慮自然語言時，這種方法的優勢將變得非常明顯。像元音那樣，有時候語音特征（如話音素）相當穩定，演變也非常緩慢。而有時候又如有聲語音和無聲語音的轉換那樣變化非常迅速?？紤]到這種變化性，模型需要能夠根據這種變化性對參數作出調整，深度 MDN 的做法是在模型中使用嵌入方差（variances embedded）。因為預測的方差是依賴于上下文的（context-dependent），所以我們將它們視為成本的自動上下文依賴權重。這對提升合成質量是極為重要的，因為我們希望在當前上下文下計算目標成本和拼接成本：

蘋果Siri深度學習語音合成技術揭秘

其中 w_t 和 w_c 分別為目標和拼接成本權重。在最后的公式中，目標成本旨在確保合成語音（語調和音長）中再現音韻。而拼接成本確保了流暢的音韻和平滑的拼接。

在使用深度 MDN 對單元的總成本進行評分后，我們執行了一種傳統的維特比搜索（Viterbi search）以尋找單元的最佳路徑。然后，我們使用波形相似重疊相加算法（waveform similarity overlap-add/WSOLA）找出最佳拼接時刻，因此生成平滑且連續合成語音。

閱讀全文

蘋果(191365) 蘋果(191365)
語音合成(16006) 語音合成(16006)

押寶物聯網蘋果前Siri主管跳槽三星

據科技博客AppleInsider報道，蘋果前軟件工程師、語音助手Siri開發主管盧克·茱莉亞（Luc Julia）已加盟三星電子，負責物聯網項目。

2013-12-26 16:28:51

682

蘋果獲新專利：推出語音識別擴展塢內置Siri語音助手

電子發燒友早八點訊：北京時間7月20日早間消息，蘋果獲得的最新專利表明，該公司有可能通過更多硬件產品，讓Siri個人助理更好地融入你的家中。

2017-07-20 09:06:14

906

你知道IPhone的語音小姐姐為什么叫“Siri”嗎？

2011 年 Siri 隨著 iPhone 4S 的發布而同步上線，在市場中引起了一陣轟動。那時為了突出它的強大，國內還有網友戲稱它是“犀利”，不過這么多年下來，好像還真的沒有人探討過這個語音助手為何會取名 Siri。

2017-08-17 09:52:58

5088

18年度智能音箱IQ測試：谷歌音箱最聰明，與蘋果音箱差距小

　　導讀：本文測試了亞馬遜(Amazon)Echo的Alexa、蘋果(Apple)HomePod的Siri、谷歌(Google)Home mini的谷歌助手、以及 Harmon Kardon

2018-12-30 09:27:27

2017全國深度學習技術應用大會

：面向自然語言處理的深度學習方法及應用　　報告人：陳恩紅中國科學技術大學　　報告摘要：深度學習在人工智能領域受到了廣泛關注，并在圖像、語音上都取得了很大的突破。本次報告將回顧和討論深度學習在

2017-03-22 17:16:00

深度學習存在哪些問題？

深度學習常用模型有哪些？深度學習常用軟件工具及平臺有哪些？深度學習存在哪些問題？

2021-10-14 08:20:47

蘋果iOS 6.1 Beta 4發布增語音撥號功能

6.1 Beta 4發布國外媒體9to5Mac給出消息稱，除了繼續修復系統Bug、完善地圖服務外，iOS 6.1 Beta 4還做了一些細節改動，比如增加了一個語音撥號功能（非Siri）。此外，蘋果

2012-12-19 09:25:22

蘋果watchOS 4將在WWDC大會發布引發猜測

腕可能就能控制它。但目前用戶在交互的時候還需要盯著表盤，這意味著視覺的反饋依舊重要，但在watchOS 3上，Siri的語音波浪不像原來隨著聲音大小而變化，這是一個奇怪的倒退。唯一的猜測是蘋果這樣

2017-05-21 09:30:46

蘋果手機Siri背后隱藏的恐怖，細思極恐！

`蘋果手機Siri背后隱藏的恐怖，細思極恐！很多蘋果用戶都會在無聊的時候打開Siri聊天，例如我！因為她有時候會回答你意想不到的答案，新奇好玩，但！對于這種人工智能，是否還有我們未知的地方呢

2017-03-17 14:21:15

蘋果智能音箱HomePod開售：智能音箱卻不智能

中國市場。　　多次跳票的HomePod能否被國內大眾接受，還尤未可知。但從定價上來看，與國內現有的智能音箱相比，蘋果并不占據優勢?！　?010年，蘋果公司以2億美元收購Siri公司，隨后與全球最大的語音

2019-01-25 09:25:52

蘋果進軍移動支付，第三方支付將被踢出局

導航、電視等行業積極邁進，并將最受炙手可熱的語音SIRI進一步深化，而這足以讓一些人的神經開始緊張?！　∩蟼€月，蘋果公布了一組令人震驚的數字：蘋果擁有4億個活躍的iTune賬戶，每個賬戶關聯的信用卡

2012-09-28 15:29:50

蘋果音箱月產大跌 Facebook智能音箱延至10月

HomePod也是該公司模仿亞馬遜推出的產品，不過蘋果采取了類似智能手機的高端高價格定位，價格高達350美元，是競爭對手的幾倍甚至是十倍，價格競爭力十分薄弱。　　另外眾所周知的是，蘋果的語音助手Siri

2018-04-25 09:30:10

語音合成IC與語音IC的兩三事

的內容播放出來。所以，語音合成芯片是一種高端智能的語音芯片，是一種采取了語音合成技術的、截然不同的智能語音芯片，它內置了中文TTS軟件或語音合成軟件核心。從未來的市場發展和用戶體驗要求上來看，語音合成模塊

2020-05-13 17:02:52

語音合成IC選型之經驗分享

格式的文本具有智能分析處理功能。北京宇音天下作為國內首款語音合成IC的研發高新技術企業，先后推出了三款工業級文本轉語音芯片，由低端到中端到高端，語音合成芯片成熟穩定，使得更多領域的智能產品擁有了語音播報

2020-05-19 14:37:41

語音合成芯片與語音芯片對比

to Speech）技術（簡稱TTS芯片），能將任意文字信息實時轉化為標準流暢的語音朗讀出來，相當于給機器裝上了人工嘴巴。通過UART接口或SPI接口通訊方式，接收待合成的文本數據，實現文本到語音（或TTS語音

2019-03-08 17:26:06

語音合成芯片與語音芯片對比

2019-03-11 15:39:02

語音合成芯片，求討論~

合成芯片的公司有一個對外介紹這個對各個行業領域有著至關重要作用的機會、平臺。最終達到目的：讓更多人享受到這個技術帶來的便利，讓更多技術人員解決語音上的麻煩問題！

2013-12-03 12:12:19

語音合成芯片，求討論~

2013-12-03 12:14:05

CAN總線的語音合成模塊研制技術

2013-09-14 21:09:09

CES熱門技術：語音識別

iPhone、iPad延伸到了Siri語音助手上。蘋果在發布iPhone 4S時，其Siri語音控制助手就引起轟動。Siri顛覆以往語音助手那種機械、冰冷的形象，變得更有人情味。而且Siri無所不能，從

2012-02-06 13:27:58

LabVIEW語音合成小程序

可以把文本合成為語音（ＴＴＳ）的LabVIEW子程序，放在程序中可以作為語音提示用，在Windows8下效果很好。

2013-09-10 18:04:03

XFS5152CE語音合成模塊

錄放芯片分段輸出可以按鍵、UART控制的mp3解碼芯片模塊OTP(One Time Programable)語音芯片[定制]其中TTS語音模塊使用起來最方便靈活，OTP語音芯片最簡單。本文將介紹一下科大訊飛的XFS5152CE語音合成模塊。XFS5152CE語音合成模塊XFS5152CE是一款

2021-08-12 08:14:01

【NXP LPC54110試用申請】學習語音識別與處理

項目名稱：學習語音識別與處理試用計劃：申請理由：以前就有過學習語音識別的想法，但沒找到合適的平臺，最近了解到PDM麥克風是很大的趨勢，沒想到LPC54110開發板就是針對這方面的，又理所當然的搭載了

2017-07-13 09:21:23

【TL6748 DSP申請】基于DSP的語音識別技術研究及實現

申請理由：在校大三學生，電子信息工程信號處理方向，特別想學習一下DSP信號處理技術。學習過隨機信號分析、信號系統課程并且正在學習數字信號處理課程。希望能夠深入學習語音信號識別處理技術，需要TI

2015-10-09 15:08:40

什么是深度學習？

深度學習是什么意思

2020-11-11 06:58:03

什么是深度學習？使用FPGA進行深度學習的好處？

) 來解決更復雜的問題，深度神經網絡是一種將這些問題多層連接起來的更深層網絡。這稱為深度學習。目前，深度學習被用于現實世界中的各種場景，例如圖像和語音識別、自然語言處理和異常檢測，并且在某些情況下，它

2023-02-17 16:56:59

使用siri和小愛同學控制ESP8266引腳電平的過程

整個教程的目錄：一.概述（本章）二.固件下載三.ESP8266模塊配置四.Siri控制一個燈五.小愛同學控制一個燈實現的功能：1.可以用蘋果手機的語音助手siri控制ESP8266的引腳高低電平（有

2022-02-14 07:48:15

基于語音合成技術的車載終端系統該怎樣去設計？

什么是語音合成技術？基于語音合成技術的車載終端系統該怎樣去設計？

2021-05-12 07:25:05

基于LabVIEW語音合成系統設計

有會基于LabVIEW語音合成系統設計的嗎

2017-04-06 22:26:17

基于波形音頻段處理的中文語音合成研究

隨著計算機技術進人網絡和多媒體時代，語音合成技術已經廣泛應用于信息咨詢、電話銀行、辦公自動化等多個領域，并繼續向前發展。目前，語音合成技術主要有基于規則合成和基于拼接合成兩種?；谝?b class="flag-6" style="color: red">合成主要是計算

2011-03-06 22:24:58

對語音交互技術感興趣的童鞋戳進來！

方案開發者之一。【直播議題】1、語音是怎么實現控制設備的？2、深度分析離在線端云一體化的應用3、揭秘語音控制芯片的核心技術4、語音控制在生活場景中的創新應用【福利！福利！】福利一：報名參加并在直播中提

2020-03-11 14:19:54

嵌入式AI語音平臺已對第三方開放你更支持誰家的“助手”？

的天氣預報、日程安排、搜索資料等應用，還能夠不斷學習新的聲音和語調，提供對話式的應答。今年的WWDC2016大會上，蘋果正式發布面向第三方開發者的SiriKit，這預示蘋果智能語音Siri未來將會整合

2016-12-28 17:24:08

智能語音助手難敵口音谷歌Home與Siri誰靠譜

？谷歌街景捕捉到天空中超自然現象 Google Assistant語音助手對比蘋果Siri 這個翻譯軟件，把人畜交流都給解決了騰訊數碼訊（亦九）在如今的電子產品市場中，語音助手可謂

2017-05-23 09:31:28

百家爭鳴下的智能語音助手，誰能真正成為領導者？

作為一大賣點?！　∪堑腂ixby、小米的小愛同學、聯想的樂語音、vivo NEX的Jovi、OPPO Find X的小歐語音助手、蘋果新推出的Siri Shortcuts功能……這些語音助手的名字相信

2018-07-26 16:33:07

訊飛語音合成芯片

訊飛語音合成芯片廣泛用于停車場系統、公交車報站和刷卡系統、廣播等，其語音合成的自然度、流暢度已和人聲幾乎無差別。

2018-12-04 14:17:10

評論稱蘋果正重蹈微軟覆轍情況令人憂慮

推出了iPhone 4S，Siri語音助手是該款手機最主要的創新點。不過，Siri的設計也存在不足，用戶們很快在社交網絡中吐槽，抒發自己對這款新品的失望與沮喪。今年，蘋果推出了iPhone 5及其搭載

2012-09-24 17:21:07

基于DSP的中文語音合成系統設計

基于DSP的中文語音合成系統設計引言　　本文介紹的就是一種基于DSP的中文語音合成系統的實現方法。隨著語音信號處理技術的不斷發展與成熟，語音合成正逐步成

2008-10-09 14:50:31

1169

語音片的語音合成電路圖

2009-07-20 11:54:26

953

淺析語音芯片與語音合成芯片的異同

淺析語音芯片與語音合成芯片的異同語音合成技術是引領信息社會的重要組成部分，是廣大生產廠商提升其產品價值的重要

2010-04-21 17:09:03

1248

siri是什么

去年4月蘋果收購名為siri的公司,Siri是為iPhone開發的虛擬個人助理應用,Siri是蘋果在iphone4S上應用的一項語音控制功能。

2011-11-08 09:30:16

7184

國產Siri類應用頻出：語音應用或成手機標配

自iPhone4s問世后，其免費智能語音應用Siri就一直飽受各國宅男的戲弄和惡搞。無奈，Siri中文版的姍姍來遲，等得心焦的國人意外地發現如Airi、Ciriis等國產中文語音應用已悄然搶灘中國市

2012-02-01 17:08:48

844

類Siri語音控制技術 Android手機也能控制電視

美國專利商標局去年秋季接到的一項專利申請顯示，谷歌正在開發類似Siri的語音控制技術，用于通過Android手機控制電視機。

2012-02-21 10:51:59

2126

語音合成系統研究

語音合成系統研究,語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術(又稱文語轉換技術)隸屬于語音合成

2012-05-24 15:59:46

4038

iPad版Siri語音助理服務今年秋季發布

iPhone 4S上備受歡迎的語音助理服務Siri，將于今年秋季正式對iPad提供支持。蘋果新一代iPad上市后引起了消費者的瘋狂搶購，但令人略感遺憾的是，新iPad并不支持語音助理服務Siri。這并不

2012-06-05 10:26:47

844

語音合成技術在智能機器人中的應用

語音合成技術在智能機器人中的應用！資料來源網絡，如有侵權，敬請原諒！

2015-12-25 09:51:32

Siri入職PayPal：全球30國iOS用戶可通過語音完成收付款

在線支付平臺PayPal日前推出Siri語音收付款功能，其用戶今后付款將更加方便快捷。在線交易公司貝寶（PayPal）11月9日宣布，其iOS 10版PayPal用戶可通過蘋果iPhone手機的語音助手Siri實現收付款功能。

2016-11-11 16:13:22

700

Android 仿Siri的中文語音助理源碼

Android 仿Siri的中文語音助理源碼

2017-03-19 11:23:20

厲害了我的蘋果iOS10.3中的Siri！她是這樣學會說上海話的

自從 Siri 面世后，市場上各種各樣的私人語音助手大量出現，其中比較出名的包括谷歌助手、Amazon Alexa 以及微軟的小娜。這些語音助手都有各自的優勢，也存在不足。蘋果語音助手 Siri

2017-03-26 09:40:21

6940

蘋果新專利：更加智能的Siri，讓Siri只識別機主的聲音

允許用戶在鎖屏狀態下使用 Siri 可能是一個潛在的安全隱患，不懷好意的人可以通過 Siri 訪問照片等隱私數據。此外，在解鎖的情況下，Siri 還可以回應所有人的語音命令。

2017-04-06 10:20:50

953

蘋果一年流失15%的Siri用戶但仍在語音助手界稱霸

根據國外媒體報道，來自App分析公司Verto的最新報告顯示，盡管蘋果的Siri現在仍然是全球最受歡迎的智能語音助手，但是使用人數已經開始大幅減少。Verto的這份報告通過六種不同的標準對語音助手的使用范圍和流行程度進行分析，發現Siri在六個標準中，有五個都呈現下滑的趨勢。

2017-07-12 09:19:29

696

語音助手逐漸興起調查卻顯示Siri用戶量一直在下降

毫無疑問，2011年蘋果發布的iPhone 4s自帶的Siri，是語音助手市場化的代表。然而，即便是最有名、最早進入市場的語音助手，Siri的處境卻似乎有點尷尬。

2017-07-14 09:36:25

715

蘋果語音助手操作原理？細數“Hey Siri”，背后付出的努力與小心思

Siri 對蘋果的未來非常的重要，眾多的科技公司都希望在機器學習和人工智能AI領域有所作為。今天，蘋果在公司的機器學習博客上發布了一篇新文章，文章詳細介紹了硬件、軟件和互聯網服務如何結合

2017-10-19 19:50:00

58646

蘋果HomePod智能音箱Siri登陸設備已破5億

近日蘋果公布了HomePod智能音箱中的Siri語音助手的成績單，蘋果表示Siri語音助手已成功登陸5億了多個設備，HomePod也開始接受預定，2月9日開始出貨

2018-01-25 12:20:31

534

Siri的重大改進:為Siri引入機器學習技術

為了讓 Siri 不被類似短句及非用戶誤導，團隊先是將焦點由尋常語音辨識目標的「說話內容」轉移至辨識「說話者」的身份，利用說話者辨識（speaker recognition, SR）并結合相關技術來增進偵測關鍵短句的系統質量。

2018-04-19 15:20:46

3922

傅盛：深度學習是“獵豹”的下一個機會

“深度學習，恐慌的應該是大公司，因為他們積累了很多的技術，不管是語音還是技術，在深度學習的沖擊下都被顛覆掉了?！?/div>

2018-05-17 19:01:00

630

機器聽覺解決方案供應商大象聲科獲得小米和高通創投的數千萬人民幣的Pre-A輪戰略投資

深度學習語音增強技術是該領域的新起之秀，卻有攻入破竹之勢。不同于主流而傳統的數字信號處理方法，它借鑒機器學習的思路，通過有監督的訓練實現語音增強，可以解決瞬時降噪等技術難題。華為今年發布

2018-07-12 10:54:44

4030

首款基于FPGA的原創深度學習語音識別加速解決方案面世，深鑒引領FPGA加速云市場

高效語音識別引擎。該方案在亞馬遜AWS發布之后，迅速移植上線國內公有云市場。以語音識別為應用載體，對AI類應用推理計算進行全面加速。成為目前國內公有云市場上，首款基于FPGA平臺的原創深度學習語音識別加速解決方案。

2018-07-27 14:25:00

1719

蘋果將把Siri與Salesforce整合

北京時間9月25日早間消息，蘋果與Salesforce.com達成合作協議，將把Siri語音助手深度整合到Salesforce自己的移動應用中。

2018-10-14 11:22:00

2580

語音合成技術簡介,深度學習技術對合成技術發展的影響

第一階段：錦上添花。從 2012 年開始，深度學習技術在語音領域逐漸開始受到關注并得以應用。這一階段，深度學習技術的主要作用，是替換原有的統計模型，提升模型的刻畫能力。比如用 DNN 替代時長模型

2018-10-18 11:50:23

8961

國外新聞 Siri創始人稱蘋果沒開放語音助手是錯誤特斯拉需要職業經理人

Siri的聯合創始人、前首席執行官達格基特勞斯（Dag Kittlaus）周二對媒體表示，Siri在被蘋果收購后可能沒有充分發揮其潛力，但語音助手仍是數字技術的未來。基特勞斯說，自2010年蘋果

2018-11-21 15:46:08

1129

Siri創始團隊分道揚鑣為哪般

日前，蘋果機器學習和 AI 業務高級副總裁 John Giannandrea 下達人事變動，自 2012 年起擔任蘋果 Siri 團隊領導人的 Bill Stasior已不再負責該項目，但Bill

2019-02-03 12:38:02

198

蘋果不再保留Siri互動錄音小米排第四雷軍要再賭5年

用戶與其Siri語音助手談話的一小部分內容。據悉這是標準的Siri行為：當用戶發出語音命令時，Siri會將互動記錄為音頻文件，并上傳到蘋果的服務器上，在那里該音頻文件會被作為Siri質量評估過程呼叫分級計劃（call grade）的一部分，而承包商會對這些記錄進行

2019-08-29 11:52:16

1404

蘋果Siri負責人辭職 John Giannandrea會找到替代者嗎？

2月2日，蘋果Siri語音助手團隊負責人比爾斯塔西奧（Bill Stasior）已經辭去了原有的職務，而接替他位置的是約翰-詹安德里亞（John Giannandrea）。據悉，Bill

2019-07-07 10:25:26

839

Siri經歷了什么樣的演變

隨著深度學習技術的不斷成熟，基于深度神經網絡的語音合成逐漸成為語音合成領域的主流方法。

2019-06-21 08:55:33

2932

蘋果正在改善智能語音助手Siri，可以不用擔心隱私問題了？

蘋果公司本周三發布了一篇聲明，對Siri隱私泄露問題再次道歉，并稱正在改善智能語音助手Siri的人工評估項目。

2019-08-29 15:22:14

2899

深度學習讓圖像、語音等感知類問題取得突破

目前，語音識別技術已逐漸被應用于工業、通信、商務、家電、醫療、汽車電子以及家庭服務等各個領域。例如，現今流行的手機語音助手，就是將語音識別技術應用到智能手機中，能夠實現人與手機的智能對話，其中包括美國蘋果公司的Siri語音助手、智能360語音助手、百度語音助手等。

2020-01-02 14:11:04

4342

智芯科微發布AT610x深度學習語音識別芯片

杭州智芯科微電子科技有限公司將AI、模擬計算芯片技術相結合，推出了一種低功耗、高性能的深度神經網絡處理器AT610x，在CES2020進行了展出。

2020-01-16 11:20:18

1188

蘋果新發布論文來闡釋語音助手的設計想法

最近，蘋果發布了一系列論文來闡釋語音助手的重要工作機理，公開揭秘Siri，向業界貢獻了自己在設計上的不同想法。

2020-02-12 14:09:37

690

蘋果Siri或提供自定義語音方法

據MacRumors報道，蘋果正在探索讓開發人員通過名為VoiceProvider的新框架，在iOS上提供自定義語音合成器的方法。

2020-03-11 14:35:57

3186

iPhone語音助手Siri加入新功能可回復新冠病毒相關問題

隨著美國疫情愈發嚴峻，蘋果也更新了iPhone語音助手Siri，幫助iPhone用戶檢測自己是否可能患有新冠病毒。

2020-03-23 09:21:12

2204

蘋果新論文發布，揭示了Siri語音技術的秘密

蘋果公司的跨平臺 Siri 虛擬助手在全球有著超過 5 億用戶，顯然，語音識別是蘋果感興趣的重要領域之一。

2020-04-24 10:12:50

998

如何使用深度學習實現語音聲學模型的研究

的分析識別更是研究的重中之重。近年來深 10 度學習模型的廣泛發展和計算能力的大幅提升對語音識別技術的提升起到了關鍵作用。本文立足于語音識別與深度學習理論緊密結合，針對如何利用深度學習模型搭建區分能力更強魯棒性更

2020-05-09 08:00:00

怎么能讓機器學習像孩子一樣學習語言

孩子們通過觀察周圍的環境，傾聽周圍的人，以及把所看到和聽到的聯系起來來學習語言。除此之外，這有助于孩子們建立語言的詞序，比如主語和動詞在句子中的位置。

2020-05-21 15:56:11

462

蘋果收購又一機器學習公司為優化Siri數據

近日，蘋果確認收購機器學習初創公司Inductiv，以優化人工智能助理Siri的性能。

2020-07-22 10:50:54

387

關于蘋果Siri的一個小彩蛋

：嗯，Siri 好像也沒那么智障。 |Siri 起源 2011年10月4日，蘋果在主題為Lets talk iPhone的發布會上發布了 iPhone 4S，名為 Siri 的語音助手搭載其中，成為了 iOS

2020-10-13 16:36:58

8519

蘋果正改進Siri等語音助手識別用戶是否口吃

蘋果正在努力讓Siri等語音技術更容易被語言模式不典型的用戶所接受。根據《華爾街日報》的報道，該公司正在研究如何自動檢測某人說話是否有口吃。為此，該公司已經從播客中積累了近2.8萬個人們說話時有口吃的片段。

2021-02-26 14:36:44

1608

VOI611嵌入式深度學習語音識別芯片的數據手冊免費下載

Voitist611（簡稱VOI611）是一顆針對嵌入式產品的深度學習語音識別芯片，內置神經網絡硬件加速模塊NPU，標準ARM處理器 Corte-M3，集成多種控制和通信接口。

2021-03-26 10:33:08

蘋果宣布將Siri整合到Apple Music

蘋果在昨日凌晨正式舉行了新一代新品發布會，發布會上蘋果公司正式發布了airpods、MacBook Pro等新品，此外發布會上最大的亮點在于蘋果宣布將語音助理 Siri 整合到 Apple Music。

2021-10-19 09:29:38

3398

采用人工智能技術的高質量合成語音開發和定制

　　當涉及到高質量的合成語音開發和定制時，深度學習被證明是一個強大的工具。一家總部位于多倫多的初創公司， NVIDIA Inception 成員類似人工智能正在利用一種新的生成語音工具增加賭注，該工具能夠創建高質量的合成人工智能語音。

2022-04-08 09:28:20

1102

語音合成技術是如何應用在我們生活中的

隨著科技的不斷發展，語音合成技術越來越成為我們生活中不可或缺的一部分。語音合成技術是一種將文本轉化為語音的技術，通過對語音合成數據的處理，將電腦生成的文字信息轉化為自然語言的聲音輸出，實現人機交互

2023-04-24 10:41:11

1050

語音合成數據的重要性：訓練高質量語音合成模型的關鍵

語音合成是一種將文本轉換為語音的技術，它在智能客服、智能助手、語音廣告等多個領域有著廣泛的應用。而要實現高質量的語音合成，就需要大量的語音合成數據。

2023-05-15 09:27:55

595

TTS語音合成技術及其應用

TTS語音合成技術是一種將文本轉換為自然語音的技術，它利用計算機技術和人工智能技術來模擬人聲的發音和語調。該技術通過將文本轉換為音素序列，并使用聲學模型對每個音素進行參數化，最終生成自然語音

2023-06-24 02:28:12

760

語音合成數據的重要性：打造自然流暢的語音合成體驗

語音合成技術的快速發展為我們帶來了更多便利和豐富的語音交互體驗。然而，要實現高質量、自然流暢的語音合成，語音合成數據的重要性不可忽視。本文將探討語音合成數據的重要性，并闡述它如何為語音合成技術的發展

2023-06-24 03:07:27

322

TTS語音合成技術的挑戰和未來發展

TTS語音合成技術在實現過程中面臨著一些挑戰和問題。首先，TTS語音合成技術需要處理自然語言理解和語音識別等復雜的問題，如何提高技術的準確率和效率是TTS語音合成技術需要解決的問題之一。其次

2023-06-24 03:18:54

586

語音識別喚醒詞的技術與應用

詞是語音識別技術中的重要組成部分，它的作用是檢測語音輸入并判斷是否包含喚醒詞，如果包含則執行相應的指令或響應。語音識別喚醒詞的技術是基于機器學習和深度學習算法實現的。通常情況下，喚醒詞被設計為一個模型，該模型在訓練過程中學習了特定語音指令的特

2023-06-24 04:02:31

741

語音合成技術與語音合成數據，賦予聲音新的可能性

隨著科技的不斷進步，語音合成技術成為人機交互和智能應用領域的重要創新。在這個領域中，語音合成數據扮演著至關重要的角色，為技術的發展提供了關鍵的支持和驅動力。語音合成技術的目標是將文本轉化為自然流暢

2023-06-28 23:56:51

312

深度學習框架連接技術

深度學習框架連接技術深度學習框架是一個能夠幫助機器學習和人工智能開發人員輕松進行模型訓練、優化及評估的軟件庫。深度學習框架連接技術則是需要使用深度學習模型的應用程序必不可少的技術，通過連接技術

2023-08-17 16:11:16

443

語音合成技術的簡介與未來發展

語音合成是一種通過計算機技術生成人類可聽的語音的技術。它將文本轉換為語音，從而實現語音交互。本文將介紹語音合成技術的概念、現狀以及未來的發展趨勢。一、語音合成技術的概念和分類語音合成是通過

2023-09-15 18:17:44

635

語音合成技術的應用與挑戰

語音合成技術是一種通過計算機技術生成人類可聽的語音的技術，它已經廣泛應用于各個領域。本文將介紹語音合成技術的應用以及所面臨的挑戰。一、語音合成技術的應用語音合成技術已經廣泛應用于各個領域，如智能

2023-09-16 14:46:51

584

基于深度學習的語音合成技術的進展與未來趨勢

近年來，深度學習技術在語音合成領域取得了顯著的進展?；?b class="flag-6" style="color: red">深度學習的語音合成技術能夠生成更加自然、真實的語音，提高了用戶體驗。本文將介紹基于深度學習的語音合成技術的進展以及未來趨勢。一、基于深度學習

2023-09-16 14:48:21

490

深度學習在語音識別中的應用及挑戰

一、引言隨著深度學習技術的快速發展，其在語音識別領域的應用也日益廣泛。深度學習技術可以有效地提高語音識別的精度和效率，并且被廣泛應用于各種應用場景。本文將探討深度學習在語音識別中的應用及所面臨

2023-10-10 18:14:53

445

CAN總線的語音合成模塊研制技術

電子發燒友網站提供《CAN總線的語音合成模塊研制技術.pdf》資料免費下載

2023-10-13 10:25:39

基于深度學習的情感語音識別模型優化策略

情感語音識別技術是一種將人類語音轉化為情感信息的技術，其應用范圍涵蓋了人機交互、智能客服、心理健康監測等多個領域。隨著人工智能技術的不斷發展，深度學習在情感語音識別領域的應用越來越廣泛。本文將探討

2023-11-09 16:34:14

227

情感語音識別：技術發展與未來趨勢

的技術發展特征提取技術：特征提取是情感語音識別的關鍵步驟之一。目前，基于深度學習模型的特征提取技術已經取得了顯著的進展。這些模型能夠自動學習語音中的特征，從而提高了情感識別的準確性。深度學習模型：卷積神經網絡（CN

2023-11-23 14:28:31

207

語音合成技術在智能駕駛中的應用與展望

一、引言隨著科技的飛速發展，語音合成技術逐漸成為人機交互領域的重要分支。在智能駕駛環境中，語音合成技術更是發揮著不可或缺的作用。它不僅簡化了人機交互過程，還為駕駛員提供了更加便捷、安全的駕駛

2024-02-01 17:50:46

199

語音合成技術在智能駕駛中的創新與應用

的發展趨勢。二、語音合成技術的創新語音質量的提升：隨著深度學習等技術的不斷發展，語音合成技術的語音質量得到了顯著提升。通過對聲音的波形、頻譜特征等進行精細的建模和調整，語音合成技術能夠生成更加自然、逼真的語音，

2024-02-01 18:09:38

310

語音合成技術在智能駕駛中的應用與挑戰

一、引言隨著智能駕駛技術的不斷發展，人機交互變得越來越重要。語音合成技術作為人機交互的重要手段，在智能駕駛中發揮著越來越重要的作用。本文將探討語音合成技術在智能駕駛中的應用，并分析所面臨的挑戰

2024-02-02 10:34:45

165

蘋果Siri語音助手將迎來重磅升級？ChatGPT帶動下，AI技術應用加速！

電子發燒友網報道（文/李彎彎）日前消息，蘋果公司的軟件工程師提議將ChatGPT等聊天機器人背后的機器學習技術整合到該公司的Siri語音助手中?？紤]到蘋果公司在過去12年里對Siri的開發一直非常

2023-04-29 12:11:28

3494

已全部加載完成

搜索歷史

蘋果Siri深度學習語音合成技術揭秘

介紹

蘋果深度語音合成技術工作原理

Siri 新聲音背后的技術

評論