20世紀80年代末提出的PSOLA合成技術(基音同步疊加技術)給波形拼接合成技術注入了新的活力。PSOLA技術著眼于對語音信號超時段特征的控制,如基頻、時長、音強等的控制。而這些參數對于語音的韻律控制以及修改是至關重要的,因此,PSOLA技術比LPC技術具有可修改性更強的優點,可以合成出高自然度的語音。
PSOLA技術的主要特點是:在拼接語音波形片斷之前,首先根據上下文的要求,用PSOLA算法對拼接單元的韻律特征進行調整,使合成波形既保持了原始發音的主要音段特征,又能使拼接單元的韻律特征符合上下文的要求,從而獲得很高的清晰度和自然度。
PSOLA技術保持了傳統波形拼接技術的優點,簡單直觀,運算量小,而且還能方便地控制語音信號的韻律參數,具有合成自然連續語流的條件,得到了廣泛的應用。
但是,PSOLA技術也有其缺點。首先,PSOLA技術是一種基音同步的語音分析/合成技術,首先需要準確的基因周期以及對其起始點的判定。基音周期或其起始點的判定誤差將會影響PSOLA技術的效果。其次,PSOLA技術是一種簡單的波形映射拼接合成,這種拼接是否能夠保持平穩過渡以及它對頻域參數有什么影響等并沒有得到解決,因此,在合成時會產生不理想的結果。
LMA聲道模型
隨著人們對語音合成的自然度和音質的要求越來越高,PSOLA算法表現出對韻律參數調整能力較弱和難以處理協同發音的缺陷,因此,人們又提出了一種基于LMA聲道模型的語音合成方法。這種方法具有傳統的參數合成可以靈活調節韻律參數的優點,同時又具有比PSOLA算法更高的合成音質。
目前,主要的語音合成技術是共振峰合成技術和基于PSOLA算法的波形拼接合成技術。這兩種技術各有所長,共振峰技術比較成熟,有大量的研究成果可以利用,而PSOLA技術則是比較新的技術,具有良好的發展前景。過去這兩種技術基本上是互相獨立發展的,現在許多學者開始研究它們兩者之間的關系,試圖將兩者有效地結合起來,從而合成出更加自然的語流。
漢語
作為一種有調語言,漢語韻律特征非常復雜。古漢語的平仄以及現代漢語拼音,對于同樣一個音節,出現在不同的環境下,其韻律參數都是各不相同的。用有限的存儲單元存儲基本漢語基本語音單元,進而從有限的存儲單元中合成出無限詞匯,組成連續漢語語句。必須在一定的韻律規則下對音庫單元的韻律參數進行調整,以得到符合當前語言環境的語音庫單元。語音合成器用來完成這種功能。
中文語音合成系統在DSP下實現時,除清晰度,能懂度和自然度外,還要求合成算法具有較底的運算復雜度,盡量小的語音庫以減少對有限存儲空間的占用程度。
評論