一種語(yǔ)音合成系統(tǒng),其包括:分割單元,其被配置成將對(duì)應(yīng)于目標(biāo)語(yǔ)音的音位串分割為多個(gè)節(jié)段,來(lái)產(chǎn)生第一節(jié)段序列;
選擇單元,其被配置成基于第一節(jié)段序列通過(guò)組合多個(gè)語(yǔ)音單元產(chǎn)生對(duì)應(yīng)于第一節(jié)段序列的多個(gè)第一語(yǔ)音單元串,并從所述多個(gè)第一語(yǔ)音單元串中選擇一個(gè)語(yǔ)音單元串;和連接單元,其被配置成連接包含在所選擇語(yǔ)音單元串中的多個(gè)語(yǔ)音單元,以產(chǎn)生合成語(yǔ)音,選擇單元包括檢索單元,其被配置成反復(fù)實(shí)施第一處理和第二處理,該第一處理基于對(duì)應(yīng)于第二節(jié)段序列的最多W個(gè)(W為預(yù)定值)第二語(yǔ)音單元串產(chǎn)生對(duì)應(yīng)于第三節(jié)段序列的多個(gè)第三語(yǔ)音單元串,所述第二節(jié)段序列作為第一節(jié)段序列中的部分序列,所述第三節(jié)段序列作為通過(guò)將節(jié)段添加給第二節(jié)段序列而獲得的部分序列,第二處理從所述多個(gè)第三語(yǔ)音單元串中選擇最多W個(gè)第三語(yǔ)音單元串,第一計(jì)算單元,其被配置成計(jì)算所述多個(gè)第三語(yǔ)音單元串中每個(gè)的總成本,第二計(jì)算單元,其被配置成基于涉及語(yǔ)音單元數(shù)據(jù)獲取速度的限制來(lái)為所述多個(gè)第三語(yǔ)音單元串中的每個(gè)計(jì)算對(duì)應(yīng)于總成本的懲罰系數(shù),其中懲罰系數(shù)依賴于接近所述限制的程度,和第三計(jì)算單元,其被配置成通過(guò)使用懲罰系數(shù)修正總成本來(lái)計(jì)算所述多個(gè)第三語(yǔ)音單元串中每個(gè)的估計(jì)值,其中檢索單元基于所述多個(gè)第三語(yǔ)音單元串中每個(gè)的估計(jì)值從所述多個(gè)第三語(yǔ)音單元串中選擇最多W個(gè)第三語(yǔ)音單元串。
常用語(yǔ)音合成方法的比較
“未來(lái)的十年是語(yǔ)音技術(shù)的時(shí)代”。隨著語(yǔ)音技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。語(yǔ)音合成技術(shù)是語(yǔ)音技術(shù)中十分實(shí)用的一項(xiàng)重要技術(shù),它能解決人民大眾的實(shí)際需求,能夠深入到社會(huì)的各行各業(yè)中去。
語(yǔ)音合成技術(shù)經(jīng)歷了一個(gè)逐步發(fā)展的過(guò)程,從參數(shù)合成到拼接合成,再到兩者的逐步結(jié)合,其不斷發(fā)展的動(dòng)力是人們認(rèn)知水平和需求的提高。目前,常用的語(yǔ)音合成方法主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA聲道模型技術(shù)。它們各有優(yōu)缺點(diǎn),人們?cè)趹?yīng)用過(guò)程中往往將多種技術(shù)有機(jī)地結(jié)合在一起,或?qū)⒁环N技術(shù)的優(yōu)點(diǎn)運(yùn)用到另一種技術(shù)上,以克服另一種技術(shù)的不足。
共振峰合成
語(yǔ)音合成的理論基礎(chǔ)是語(yǔ)音生成的數(shù)學(xué)模型。該模型語(yǔ)音生成過(guò)程是在激勵(lì)信號(hào)的激勵(lì)下,聲波經(jīng)諧振腔(聲道),由嘴或鼻輻射聲波。因此,聲道參數(shù)、聲道諧振特性一直是研究的重點(diǎn)。習(xí)慣上,把聲道傳輸頻率響應(yīng)上的極點(diǎn)稱之為共振峰,而語(yǔ)音的共振峰頻率(極點(diǎn)頻率)的分布特性決定著該語(yǔ)音的音色。
音色各異的語(yǔ)音具有不同的共振峰模式,因此,以每個(gè)共振峰頻率及其帶寬作為參數(shù),可以構(gòu)成共振峰濾波器。再用若干個(gè)這種濾波器的組合來(lái)模擬聲道的傳輸特性(頻率響應(yīng)),對(duì)激勵(lì)源發(fā)出的信號(hào)進(jìn)行調(diào)制,再經(jīng)過(guò)輻射模型就可以得到合成語(yǔ)音。這就是共振峰合成技術(shù)的基本原理。基于共振峰的理論有以下三種實(shí)用模型。
1)級(jí)聯(lián)型共振峰模型
在該模型中,聲道被認(rèn)為是一組串聯(lián)的二階諧振器。該模型主要用于絕大部分元音的合成。
2)并聯(lián)型共振峰模型
許多研究者認(rèn)為,對(duì)于鼻化元音等非一般元音以及大部分輔音,上述級(jí)聯(lián)型模型不能很好地加以描述和模擬,因此,構(gòu)筑和產(chǎn)生了并聯(lián)型共振峰模型。
3)混合型共振峰模型
在級(jí)聯(lián)型共振峰合成模型中,共振峰濾波器首尾相接;而在并聯(lián)型模型中,輸入信號(hào)先分別通過(guò)幅度調(diào)節(jié)再加到每一個(gè)共振峰濾波器上,然后將各路的輸出疊加起來(lái)。將兩者比較,對(duì)于合成聲源位于聲道末端的語(yǔ)音(大多數(shù)的元音),級(jí)聯(lián)型合乎語(yǔ)音產(chǎn)生的聲學(xué)理論,并且無(wú)需為每一個(gè)濾波器分設(shè)幅度調(diào)節(jié);而對(duì)于合成聲源位于聲道中間的語(yǔ)音(大多數(shù)清擦音和塞音),并聯(lián)型則比較合適,但是其幅度調(diào)節(jié)很復(fù)雜。基于此種考慮,人們將兩者結(jié)合在一起,提出了混和型共振峰模型。
共振峰模型是基于對(duì)聲道的一種比較準(zhǔn)確的模擬,因而可以合成出自然度比較高的語(yǔ)音,另外由于共振峰參數(shù)有著明確的物理意義,直接對(duì)應(yīng)于聲道參數(shù),因此,可以容易利用共振峰描述自然語(yǔ)流中的各種現(xiàn)象,并且總結(jié)聲學(xué)規(guī)則,最終用于共振峰合成系統(tǒng)。
但是,人們同時(shí)也發(fā)現(xiàn)該技術(shù)有明顯的弱點(diǎn)。首先由于它是建立在對(duì)聲道的模擬上,因此,對(duì)于聲道模型的不精確勢(shì)必會(huì)影響其合成質(zhì)量。另外,實(shí)際工作表明,共振峰模型雖然描述了語(yǔ)音中最基本最主要的部分,但并不能表征影響語(yǔ)音自然度的其他許多細(xì)微的語(yǔ)音成分,從而影響了合成語(yǔ)音的自然度。另外,共振峰合成器控制十分復(fù)雜,對(duì)于一個(gè)好的合成器來(lái)說(shuō),其控制參數(shù)往往達(dá)到幾十個(gè),實(shí)現(xiàn)起來(lái)十分困難。
基于這些原因,研究者繼續(xù)尋求和發(fā)現(xiàn)其他新的合成技術(shù)。人們從波形的直接錄制和播放得到啟發(fā),提出了基于波形拼接的合成技術(shù),LPC合成技術(shù)和PSOLA合成技術(shù)是其中的代表。與共振峰合成技術(shù)不同,波形拼接合成是基于對(duì)錄制的合成基元的波形進(jìn)行拼接,而不是基于對(duì)發(fā)聲過(guò)程的模擬。
LPC參數(shù)合成
波形拼接技術(shù)的發(fā)展與語(yǔ)音的編、解碼技術(shù)的發(fā)展密不可分,其中LPC技術(shù)(線性預(yù)測(cè)編碼技術(shù))的發(fā)展對(duì)波形拼接技術(shù)產(chǎn)生了巨大的影響。LPC合成技術(shù)本質(zhì)上是一種時(shí)間波形的編碼技術(shù),目的是為了降低時(shí)間域信號(hào)的傳輸速率。
LPC合成技術(shù)的優(yōu)點(diǎn)是簡(jiǎn)單直觀。其合成過(guò)程實(shí)質(zhì)上只是一種簡(jiǎn)單的解碼和拼接過(guò)程。另外,由于波形拼接技術(shù)的合成基元是語(yǔ)音的波形數(shù)據(jù),保存了語(yǔ)音的全部信息,因而對(duì)于單個(gè)合成基元來(lái)說(shuō)能夠獲得很高的自然度。
但是,由于自然語(yǔ)流中的語(yǔ)音和孤立狀況下的語(yǔ)音有著極大的區(qū)別,如果只是簡(jiǎn)單地把各個(gè)孤立的語(yǔ)音生硬地拼接在一起,其整個(gè)語(yǔ)流的質(zhì)量勢(shì)必是不太理想的。而LPC技術(shù)從本質(zhì)上來(lái)說(shuō)只是一種錄音+重放,對(duì)于合成整個(gè)連續(xù)語(yǔ)流LPC合成技術(shù)的效果是不理想的。因此,LPC合成技術(shù)必須和其他技術(shù)相結(jié)合,才能明顯改善LPC合成的質(zhì)量。
評(píng)論