我國漢字文化博大精深,雖然現在語音合成技術發展較為成熟,但仍無法做到100%的智能分析和識別,來滿足人們的需求習慣。
例如漢字“一”,在不同語境下有3種讀法,“一五一十”“一路平安”“一言為定”,大家可以讀讀看。
再例如數字“1”,電話號碼“010-62986600、15321801789”,日期“2018-01-01”,在電話號碼中大家習慣讀成“幺”,而在日期里又習慣性的讀成“一”。
這樣的場景還有很多很多,本文將向大家介紹在TTS芯片端,如遇到無法智能識別播報的情況下,利用“文本控制標記”,使文本合成準確率達到100%的。
我們以市場常見的TTS語音芯片VTX316為例,它支持10多種文本控制標記,下面我們一一列舉,并加以說明。
控制標記統一格式為“[XX]”,“XX”=標記參數,使用時只要將標記放在需要調整的文本前即可。
1. 數字處理標記[nX]
默認設置下芯片會自動識別數字的含義,是按“號碼方式" OR "數值方式"進行解讀
備注:“X”=0、1、2
[n0]=自動判斷
[n1]=按號碼方式
[n2]=按數值方式
舉例文本1:撥打62986600。有123公斤重。
說明:“62986600”會讀作“六二九八六六零零”。“123”讀作“一百二十三”
舉例文本2:[n2]撥打62986600。[n1]有123公斤重。
說明:“62986600”會讀作“六千二百九十八萬六千六百”。“123”讀作“一二三”
2. 數字“1”的處理標記[yX]
默認設置下芯片會自動識別數字"1"的讀法,是讀“幺" OR "一"進行解讀
備注:“X”=0、1
[y0]=讀成“幺”
[y1]=讀成“一”
舉例文本1:[y0]撥打010-62986600
說明:讀作“撥打零幺零,六二九八六六零零”
舉例文本2:[y1]撥打010-62986600
說明:讀作“撥打零一零,六二九八六六零零”
3. 標點符號處理標記[bX]
默認情況下標點符號的名稱是不進行播報的
備注:“X”=0、1
[b0]=不播報標點符號
[b1]=播報標點符號
舉例文本:[b1]歡迎光臨,請進!
說明:讀作“歡迎光臨 逗號 請進 感嘆號”
4. 改變漢字讀音標記[=X]
當我們想改變原來漢字的讀音時可以用到這個標記策略,比如更換一個字的發音或是多音字”
備注:“X”=要改變的讀音,格式為“漢語拼音”+“聲調”,聲調=1、2、3、4、5(輕聲)
舉例文本1:歡迎他們,歡迎他[=ni3]們,歡迎他[=wo3]們
說明:讀作“歡迎他們,歡迎你們,歡迎我們”
舉例文本2:解[=xie4]放濤用語音合成芯片,單位的單[=shan4]小虎也在用
說明:“解”會讀成“謝”,“單”會讀成“善”
5. 發音人設置標記[mX]
VTX316TTS芯片支持8種發音人(音色),可通過[mX]標記隨意切換。
備注:“X”=3、51、52、53、54、55、56、57,對應的發音人如下
[m3]=曉玲,女聲(默認設置)
[m51]=尹小堅,男聲
[m52]=易小強,男聲
[m53]=田蓓蓓,女聲
[m54]=唐老鴨,卡通聲
[m55]=小燕子,女童聲
[m56]=貝童,男童聲
[m57]=曉可,男童聲
舉例文本:[m3]你好,[m54]這是發音人設置的舉例。
說明:“你好”的發音人為女聲曉玲,“這是發音人設置的舉例”的發音人是卡通聲唐老鴨
6. 語速調節標記[sX]
TTS芯片支持30級語速調節
備注:“X”=0~30,默認設置為5,數值越大語速越快
舉例文本:歡迎使用[s10]宇音天下語音合成芯片
說明:“歡迎使用”的語速為5級,“宇音天下語音合成芯片”的語速為10級
7. 語調調節標記[tX]
語音合成芯片可控制10級語調調整
備注:“X”=0~10,數值越大語調越高
舉例文本:歡迎使用[t8]宇音天下語音合成芯片
說明:“歡迎使用”的語調為5級,“宇音天下語音合成芯片”的語調為8級
8. 音量調節標記[vX]
TTS語音芯片支持10級音量調整
備注:“X”=0~10,數值越大音量越大
舉例文本:歡迎使用[v8]宇音天下語音合成芯片
說明:“歡迎使用”的音量為5級,“宇音天下語音合成芯片”的音量為8級
9. 提示音處理標記[xX]
語音合成芯片通常內置多首提示音,例如"sound901",具體格式參芯片數據手冊。
備注:"X"=0、1
[x0]=不按提示音處理
[x1]=按提示音處理
舉例文本:[x0]sound901
說明:讀作“sound901”,會按照字母加數字的讀法播報
10. 中文拼音識別標記[iX]
判斷是否將文本識別成拼音
備注:“X”=0、1
[x0]=不識別漢語拼音
[x1]=識別成拼音
舉例文本:[i1]歡迎shi3yong4宇yin1tian1xia4[i0]語音合cheng2系統
說明:讀作“歡迎使用宇音天下語音合cheng2系統”,“cheng2”會按照字母和數字逐字播報
11. 停頓(靜音)時間標記[pX]
在有需要停頓的文本中插入該標記,可靈活控制停頓時間
備注:“X”=停頓時間,單位毫秒(ms)
舉例文本:歡迎使用[p800]宇音天下[p350]TTS語音芯片
說明:播報“歡迎使用”后,停頓800毫秒,播報“宇音天下”,停頓350毫秒,播報“TTS語音芯片”
12. 恢復默認合成參數標記[d]
本參數標記將合成參數恢復成默認設置,除發音人標記參數
舉例文本:[n1]123,[y1]010-62986600[d]123, 010-62986600
說明:讀作“一二三,零一零,六二九八六六零零,一百二十三,零幺零,六二九八六六零零”
經過上面的介紹,在語音合成芯片端如何達到100%的準確率,各位的思路是否已經非常清晰了呢?
審核編輯 黃宇
-
芯片
+關注
關注
460文章
52520瀏覽量
441013 -
TTS
+關注
關注
0文章
53瀏覽量
11179 -
語音合成芯片
+關注
關注
0文章
27瀏覽量
7663
發布評論請先 登錄
Air8000 TTS開源,語音合成從此“零距離”!

智能收銀語音交互新標桿—WT3000T8語音合成芯片TTS技術應用解析

WT3000TX語音合成芯片介紹V1
芯資訊|WT3000T8語音合成芯片TTS在智能收款機中的創新應用設計方案介紹

YX5p多功能單芯片CMOS語音合成4位微控制器中文手冊
芯資訊|WT3000T8語音合成芯片:高性價比語音交互解決方案

芯知識|WT3000T8語音合成芯片:功能解析與應用指南

WT3000T8-32N語音合成TTS芯片:小體積、強性能,重塑智能語音交互體驗

在線VS離線TTS(語音合成芯片)有哪些優勢-AIOT智能語音產品方案

智能語音的驅動力:揭秘8腳語音芯片在智能設備中的非凡角色
人員定位工牌卡-TTS語音合成文字轉語音芯片WT3000T8應用方案解析
九芯語音合成芯片NVH-FLASH,看這一篇足矣!

評論