女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于語音合成的類別以及應用分析

訊飛開放平臺 ? 來源:djl ? 作者:汪艦 ? 2019-10-08 08:41 ? 次閱讀

語音合成又叫文語轉換,是將文本轉換成語音的一種技術,是人機交互中必不可少的一個環節。隨著技術的發展,現在合成語音的自然度和音質都得到了明顯的改善。汽車導航內嵌的語音系統、智能手機語音助手、讀書軟件等等,這些應用的實現都離不開語音合成。時下熱門的AR、機器人、可穿戴設備等也為語音合成技術落地提供了更廣闊的市場。

不過,當前語音合成技術還有很多痛點急需要解決,讓機器擁有自然、有情感的聲音,依舊是語音合成技術最大的難點。語音合成的現狀是怎樣?一個優質合成音是怎樣誕生的?AI浪潮下,你可以如何玩轉語音合成?AI公開課第一期,我們為你請到科大訊飛云平臺技術服務專家——汪艦為你解答這些問題。

什么是語音合成

語音合成也叫文語轉換(Text-To-Speech),簡稱TTS,簡單理解就是“讓機器說人話”。

語音合成用在哪里

別看語音合成技術近年來才被廣泛應用,實際它已經有兩百多年的歷史了。

那么語音合成都在我們生活中的哪些地方出現過呢?我總結了三個方面:

第一個是APP,比如QQ閱讀這樣的讀書應用,滴滴出行高德導航這種導航播報類的app;還有以siri為代表的語音助手,都是語音合成功能的常見載體;

另外一類是智能硬件產品,比如非常火的機器人領域,我們都希望機器人可以像真人一樣和我們進行交流,所以合成功能基本就是他們的必備能力。

還有一些特殊領域也非常需要語音合成,比如視障閱讀,對于視障人士來說,聽書比摸書要高效得多。

語音合成里的技術門派

將語音合成技術門派按武俠風格可以劃分為:氣宗和劍宗。想當年氣宗草創之初,創始人的想法很簡單,人怎么發聲的我就讓機器怎么發聲,基本就是山寨人體的思路。

但是有撥人認為,氣宗這么搞沒有前途,而且成效太慢,可操作性太差了,這撥人就是劍宗。劍宗表示,我們完全可以直接找人把語音里面所有的基礎片段都錄好,然后按照需要直接拼就行了。

技術門派之氣宗

先來看看氣宗具體是怎么玩的:他們用氣囊代替肺,接根管子代替氣管,管子末端再裝個氣門代替聲帶,氣門后面再裝個橡膠做的碗狀結構來模擬口腔。

這套系統的操作非常簡單,一只手掐住脖子就是氣門,控制基頻高低;另一只手操作口腔就是那個橡膠碗,控制發什么音;剩下的那個用來模擬肺的氣囊就只能用腳來踩了。

基頻又是什么呢? 讓我們舉個簡單的例子,漢語普通話除輕聲以外有四種聲調,2聲的基頻就是前低后高,4聲的前高后低,3聲是先高后低再高。掐氣門的手捏得越緊,聲道越窄,振動的基頻就越高。不過這當個發明愛好還可以,實際用起來肯定不靠譜。但是隨著科學的發展,計算機技術開始出現,逐漸普及,給很多領域都帶來了全新的變化,語音合成當然也不例外。

技術門派之劍宗

劍宗表示,我們完全可以直接找人把語音里面所有的基礎片段都錄好,按照需要直接拼就行了。這個基礎片段可長可短,可以是音素,可以是音節,甚至是聲韻母的拼音。這種方法對人的要求就簡單多了,基本上會拼圖就能操作,所以也比較速成。

但是在沒有計算機的時代,大量單元的管理和拼接是很麻煩的工作,所以每個基礎單元一般只保存了較少的樣例供選擇。那么在合成千變萬化的句子的時候,語音的起承轉合難免就有些生硬和突兀,拼出來的語音雖然能讓人聽懂,但很難做到自然流暢。

計算機出現后這個問題得到有效的解決,有了計算和存儲能力更大的計算機,他們就可以進行超大規模音庫的制作,包括語料設計、音庫錄制、精細切分、韻律標注;同時進行規則統計,以此來針對不同發音人進行細致調整。這樣合成出來的音頻音質比較好,一般句子的自然度也不錯。

所以在此后很長一段時間,劍宗對氣宗在合成音的音質上占據了絕對優勢,氣宗只在嵌入式的小系統上保留著一小塊領地。這種狀況直到后來氣宗成功引入了在語音識別領域大放異彩的HMM(隱馬爾科夫模型)才得到根本改善。

語音合成技術痛點是什么

從合成的發展歷史來看,表現力、音質、復雜度和自然度一直是合成技術所追求的四點。其中隨著技術的演進,復雜度、自然度、音質三個方面都已經取得了非常不錯的成績。目前各大技術提供商更多的是在研究如何提高合成音的表現力,特別是語氣和情感方面。

一條音頻是如何合成出來的

這里其實包括了兩個過程,一個是語音庫的制作過程,一個是使用語音庫將文本變成音頻的過程。語音庫的制作首先需要收集客戶的需求,確定音色、風格、使用領域、產品特性、角色要求;然后找到配音員試音,根據需求設計試音文本,收集錄音,通過實驗分析確定發音人是否合適做音庫;然后和客戶確認實驗效果是否能接受;最后投入音庫生產線,錄音腳本設計、錄音資源訓練、效果優化。

然后看一下真正的合成過程:輸入文本后首先需要按照詞典規則對文本進行語言處理,主要模擬人對自然語言的理解過程,包括文本規整、詞的切分、語法語義分析,使計算機對輸入的文本能完全理解,并給出后續步驟所需要的各種發音提示。然后是韻律處理,就是為合成語音規劃出音段特征,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。最后根據前兩部分處理結果的要求輸出語音,即合成語音。

語音合成優秀案例解析

QQ閱讀演示視頻

小程序:AI隨身聽 演示視頻

訊飛開放平臺的語音合成技術

訊飛開放平臺目前以SDK的形式提供語音合成能力

目前提供支持8個平臺的合成SDK,免費開放36個在線發音人,還有15個離線發音人可供購買使用,其中發音人xiaoyuan更是支持中英文混合合成。支持各種語言方言13種。另外對于有特殊要求的產品,我們還提供特色發音人的定制服務,例如很多小伙伴比較熟悉的高德地圖林志玲的聲音,還有之前PPT出現龍泉寺賢二的發音人。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7636

    瀏覽量

    90250
  • 語音合成
    +關注

    關注

    2

    文章

    92

    瀏覽量

    16416
  • 大數據
    +關注

    關注

    64

    文章

    8952

    瀏覽量

    139559
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    明遠智睿SSD2351開發板:語音機器人領域的變革力量

    的四核1.4GHz處理器具備強勁的運算性能,能夠高效處理語音機器人運行過程中的復雜任務。語音識別和合成需要大量的計算資源,該處理器可以快速對語音信號進行
    發表于 05-28 11:36

    大模型時代的新燃料:大規模擬真多風格語音合成數據集

    大模型充分學習到語音的發音規律、語義特征、語境等信息,從而提升語音識別、語音合成等關鍵能力,提供更加準確、自然、智能的語音交互體驗。
    的頭像 發表于 04-30 16:17 ?200次閱讀

    智能收銀語音交互新標桿—WT3000T8語音合成芯片TTS技術應用解析

    一、行業應用背景在零售業態智能化轉型的浪潮中,收銀設備正經歷從功能型向服務型轉變的關鍵階段。WT3000T8語音合成芯片應運而生,專為滿足新零售場景下智能收銀終端的語音交互需求而設計。該芯片通過創新
    的頭像 發表于 04-24 08:45 ?174次閱讀
    智能收銀<b class='flag-5'>語音</b>交互新標桿—WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片TTS技術應用解析

    WT3000TX語音合成芯片介紹V1

    WT3000TX是一系列功能強大的高品質語音芯片,采用了高性能32位處理器、最高頻率可達240MHz。WT3000TX高集成度的語音合成芯片,可實現中文、英文字母或中英文語音
    發表于 04-17 08:43 ?0次下載

    【CW32模塊使用】語音合成播報模塊

    SYN6288E 中文語音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/價比更高的 SYN6288 芯片的基礎上更改封裝方式的,效果更自然的一款中高端語音合成芯片
    的頭像 發表于 03-29 17:25 ?562次閱讀
    【CW32模塊使用】<b class='flag-5'>語音</b><b class='flag-5'>合成</b>播報模塊

    芯資訊|WT3000T8語音合成芯片:高性價比語音交互解決方案

    在智能終端設備快速普及的當下,語音交互已成為提升用戶體驗的關鍵功能。廣州唯創電子推出的WT3000T8語音合成芯片,憑借其卓越的語音處理能力、靈活的控制模式及超低功耗設計,成為工業控制
    的頭像 發表于 03-24 09:05 ?287次閱讀
    芯資訊|WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片:高性價比<b class='flag-5'>語音</b>交互解決方案

    WT3000T8-32N語音合成TTS芯片:小體積、強性能,重塑智能語音交互體驗

    在萬物互聯的智能化浪潮中,語音交互已成為人機交互的核心入口。廣州唯創電子推出的WT3000T8-32N語音合成芯片,憑借其4×4mm超小封裝、240MHz超強算力與多場景語音解決方案,
    的頭像 發表于 03-21 09:20 ?330次閱讀
    WT3000T8-32N<b class='flag-5'>語音</b><b class='flag-5'>合成</b>TTS芯片:小體積、強性能,重塑智能<b class='flag-5'>語音</b>交互體驗

    可以在OpenVINO?工具套件的視覺處理單元上推斷語音合成模型嗎?

    無法確定是否可以在 VPU 上推斷語音合成模型
    發表于 03-06 08:29

    在線VS離線TTS(語音合成芯片)有哪些優勢-AIOT智能語音產品方案

    離線 TTS 存在語音質量欠佳、音色選擇有限、語言支持單一更新困難、占用資源多、適應性差、難以個性化定制等痛點 01更新維護困難 由于是離線模式,難以及時獲取最新的語音數據和算法更新
    的頭像 發表于 02-25 17:08 ?345次閱讀
    在線VS離線TTS(<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片)有哪些優勢-AIOT智能<b class='flag-5'>語音</b>產品方案

    詳解語音識別技術在通信領域中的應用

    語音識別技術也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對語音信號進行分析和識別,將人類的
    的頭像 發表于 02-21 17:05 ?718次閱讀
    詳解<b class='flag-5'>語音</b>識別技術在通信領域中的應用

    基于W2605C語音識別合成芯片的智能語音交互鬧鐘方案-AI對話享受智能生活

    隨著科技的飛速發展,智能家居產品正逐步滲透到我們的日常生活中,其中智能鬧鐘作為時間管理的得力助手,也在不斷進化。基于W2605C語音識別與語音合成芯片的智能語音交互鬧鐘,憑借其強大的聯
    的頭像 發表于 12-31 11:54 ?717次閱讀

    智能語音的驅動力:揭秘8腳語音芯片在智能設備中的非凡角色

    語音技術滲透生活,8腳語音芯片以微縮體積、低功耗、卓越性能成智能設備語音功能核心,集成識別、合成、壓縮解碼等功能,實現精準語音交互,讓設備更
    的頭像 發表于 12-02 14:23 ?477次閱讀

    九芯語音合成芯片NVH-FLASH,看這一篇足矣!

    前言什么是語音合成芯片:簡而言之,就是將文字信息轉化為語音信號輸出的電子器件。它能夠將存儲或接收到的文字內容,通過內部復雜的算法處理,轉換成自然流暢的語音,實現人機之間的
    的頭像 發表于 11-21 01:01 ?548次閱讀
    九芯<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片NVH-FLASH,看這一篇足矣!

    語音集成電路是指什么意思

    系統、智能家居等領域。以下是關于語音集成電路的介紹: 1. 語音集成電路的基本概念 語音集成電路是一種集成了多種語音處理功能的電子芯片。它能
    的頭像 發表于 09-30 15:44 ?787次閱讀

    語音集成電路有哪些特點

    各種應用中都非常有用,包括智能手機、智能音箱、汽車導航系統、醫療設備和安全系統等。 以下是關于語音集成電路特點的分析: 集成度高 :語音集成電路將多個功能集成在一個芯片上,這樣可以減少
    的頭像 發表于 09-30 15:43 ?625次閱讀