?
語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術(又稱文語轉換技術)隸屬于語音合成,它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術
語音合成技術
語音合成和語音識別技術是實現人機語音通信,建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話能力,是當今時代信息產業的重要競爭市場。和語音識別相比,語音合成的技術相對說來要成熟一些,并已開始向產業化方向成功邁進,大規模應用指日可待。
語音合成,又稱文語轉換(Text to Speech)技術,能將任意文字信息實時轉化為標準流暢的語音朗讀出來,相當于給機器裝上了人工嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術,解決的主要問題就是如何將文字信息轉化為可聽的聲音信息,也即讓機器像人一樣開口說話。我們所說的“讓機器像人一樣開口說話”與傳統的聲音回放設備(系統)有著本質的區別。傳統的聲音回放設備(系統),如磁帶錄音機,是通過預先錄制聲音然后回放來實現“讓機器說話”的。這種方式無論是在內容、存儲、傳輸或者方便性、及時性等方面都存在很大的限制。而通過計算機語音合成則可以在任何時候將任意文本轉換成具有高自然度的語音,從而真正實現讓機器“像人一樣開口說話”。
文語轉換系統實際上可以看作是一個人工智能系統。為了合成出高質量的語言,除了依賴于各種規則,包括語義學規則、詞匯規則、語音學規則外,還必須對文字的內容有很好的理解,這也涉及到自然語言理解的問題。下圖顯示了一個完整的文語轉換系統示意圖。文語轉換過程是先將文字序列轉換成音韻序列,再由系統根據音韻序列生成語音波形。其中第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的韻律控制規則;第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。因此一般說來,文語轉換系統都需要一套復雜的文字序列到音素序列的轉換程序,也就是說,文語轉換系統不僅要應用數字信號處理技術,而且必須有大量的語言學知識的支持。
TTS的基本結構
語言學處理
在文語轉換系統中起著重要的作用,主要模擬人對自然語言的理解過程——文本規整、詞的切分、語法分析和語義分析,使計算機對輸入的文本能完全理解,并給出后兩部分所需要的各種發音提示。
韻律處理
為合成語音規劃出音段特征,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。
聲學處理
根據前兩部分處理結果的要求輸出語音,即合成語音。
參數合成
在語音合成技術的發展中,早期的研究主要是采用參數合成方法。值得提及的是Holmes的并聯共振峰合成器(1973)和Klatt的串/并聯共振峰合成器(1980),只要精心調整參數,這兩個合成器都能合成出非常自然的語音。最具代表性的文語轉換系統當數美國DEC公司的DECtalk(1987)。但是經過多年的研究與實踐表明,由于準確提取共振峰參數比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音的音質難以達到文語轉換系統的實用要求。
波形拼接
自八十年代末期至今,語言合成技術又有了新的進展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基于時域波形拼接方法合成的語音的音色和自然度大大提高。九十年代初,基于PSOLA技術的法語、德語、英語、日語等語種的文語轉換系統都已經研制成功。這些系統的自然度比以前基于LPC方法或共振峰合成器的文語合成系統的自然度要高,并且基于PSOLA方法的合成器結構簡單易于實時實現,有很大的商用前景。
評論