音頻編碼和解碼原理
每張CD光盤重放雙聲道立體聲信號可達74分鐘。VCD視盤機要同時重放聲音和圖像,圖像信號數據需要壓縮,其伴音信號數據也要壓縮,否則伴音信號難于存儲到VCD光盤中。
一、伴音壓縮編碼原理
伴音信號的結構較圖像信號簡單一些。伴音信號的壓縮方法與圖像信號壓縮技術有相似性,也要從伴音信號中剔除冗余信息。人耳朵對音頻信號的聽覺靈敏度有其其規律性,對于不同頻段或不同聲壓級的伴音有其特殊的敏感特性。在伴音數據壓縮過程中,主要應用了聽覺閾值及掩蔽效應等聽覺心理特性。
1、閾值和掩蔽效應
(1) 閾值特性
人耳朵對不同頻率的聲音具有不同的聽覺靈敏度,對低頻段(例如100Hz以下)和超高頻段(例如16KHZ以上)的聽覺靈敏度較低,而在1K-5KHZ的中音頻段時,聽覺靈敏度明顯提高。通常,將這種現象稱為人耳的閾值特性。若將這種聽覺特性用曲線表示出來,就稱為人耳的閾值特性曲線,閾值特性曲線反映該特性的數值界限。將曲線界限以下的聲音舍棄掉,對人耳的實際聽音效果沒有影響,這些聲音屬于冗余信息。
在伴音壓縮編碼過程中,應當將閾值曲線以上的可聽頻段的聲音信號保留住,它是可聽頻段的主要成分,而那些聽覺不靈敏的頻段信號不易被察覺。應當保留強大的信號,忽略舍棄弱小的信號。經過這樣處理的聲音,人耳在聽覺上幾乎察覺不到其失真。在實際伴音壓縮編碼過程中,也要對不同頻段的聲音數據進行量化處理。可對人耳不敏感頻段采用較粗的量化步長進行量化,可舍棄一些次要信息;而對人耳敏感頻段則采用較細小的量化步長,使用較多的碼位來傳送。
(2)掩蔽效應
掩蔽效應是人耳的另一個重要生理特征。如果在一段較窄的頻段上存在兩種聲音信號,當一個強度大于另一個時,則人耳的聽覺閾值將提高,人耳朵可以聽到大音量的聲音信號,而其附近頻率小音量的聲音信號卻聽不到,好像是小音量信號被大音量信號掩蔽掉了。由于其它聲音信號存在而聽不到本聲音存在的現象,稱為掩蔽效應。
根據人耳的掩蔽特性,可將大音量附近的小音量信號舍棄掉,對實際聽音效果不會發生影響。既使保留這些小音量信號,人耳也聽不到它們的存在,它屬于伴音信號中的冗余信息。舍棄掉這些信號,可以進一步壓縮伴音數據總量。
經仔細觀察,掩蔽效應分為兩大類,一類是同時掩蔽效應,另一類是短時掩蔽效應。其中,同時掩蔽效應是指同時存在一個弱信號和一個強信號,兩者頻率接近,強信號將提高弱信號的聽閾值,將弱信號的聽閾值提高到一定程度時,可使人耳聽不到弱信號。例如,同時出現A、B兩聲,若A聲的聽覺閾值為50dB,由于存在另一個不同頻率的B聲,將使A聲的閾值提高到64~68dB,例如取68dB,那么數值(68~50)dB=18dB,該值稱為掩蔽量。將強大的B聲稱為掩蔽聲,而較弱的A聲稱為被掩蔽聲。上述掩蔽現象說明,若僅有A聲時,其聲壓級50dB以上的聲音可以傳送出去,而50dB以下的聲音將聽不到;若同時出現B聲,B聲具有同時掩蔽效應,使得A聲在聲壓級68dB以下的聲音也聽不到了,即50~68dB之間的A聲人耳也聽不到了,這些聲音不必傳送,即使傳送也聽不到,只須傳送聲壓級68dB以上的聲音。總之,為了提高一個聲音的閾值,可以同時設置另一個聲音,使用這種辦法可以壓縮掉一部分聲音數據。在周圍十分安靜的環境下,人耳可以聽到聲壓級很低的各種頻率聲音,但對低頻聲和高頻聲的掩蔽閾值較高,即聽覺不靈敏。經研究還發現,掩蔽聲越強,掩蔽作用越強;當掩蔽聲與被掩蔽聲的頻率相差越小,掩蔽效果越明顯,兩者頻率相等時,掩蔽效果最佳;低頻聲(設為B)可有效地掩蔽高頻聲(設為A),而高頻聲(設為B)幾乎不能掩蔽低頻聲(設為A)。因而輸入信號時,在受掩蔽的頻帶內加入更大的噪聲時,人耳也感覺不到與原始信號有所區別。上述的同時掩蔽效應,又稱為頻域掩蔽效應,它主要反映在頻域方面對掩蔽作用的影響。在聲音壓縮編碼中,更多地使用單頻聲音的掩蔽效應。
如果A聲和B聲不同時出現,也可發生掩蔽作用,稱它為短時掩蔽效應。短時掩蔽又可分為兩種類型,作用仍可持續一段時間,即后向掩蔽和前向掩蔽。后向掩蔽是指掩蔽聲B消失后,其掩蔽作用仍可持續一段時間,一般可達0.5~2秒。掩蔽機理是人耳的存儲效應所致。而前向掩蔽是指被掩蔽聲A出現一段時間后出現掩蔽聲B,只要A、B聲音隔不太大(一般在0.05~0.2秒以內),B也可對A起掩蔽作用。掩蔽機理是A聲尚未被人耳感知接受時,強大的B聲已來臨所致。在實踐中,后向掩蔽有較高的應用價值。短時掩蔽效應具有很強的時域結構特性,故又稱為時域掩蔽效應。在聲音壓縮編碼中,應兼顧好人耳的頻域和時域兩種掩蔽效應。
2、子帶編碼原理
(1)子帶編碼和解碼過程
所謂子帶編碼技術,是將原始信號由時間域轉變為頻率域,然后將其分割為若干個子頻帶,并對其分別進行數字編碼的技術。它是利用帶通濾波器(BPF)組把原始信號分割為若干(例如m個)子頻帶(簡稱子帶)。
在接收端實現發送端的逆過程。輸入子帶編碼數據流,將各子帶信號分別送到相應的數字解碼電路(共m個)進行數字解調,經過諸路低通濾波器(m路),并重新解調,可把各子帶頻域恢復為當初原始信號的分布狀態。最后,將各路子帶輸出信號送到同步相加器,經過相加恢復為原始信號,該恢復的信號與原始信號十分相似。
(2)子帶編碼的應用
子帶編碼技術具有突出的優點。首先,聲音頻譜各頻率分量的幅度值各不相同,若對不同子帶分配以合適的比例系數,可以更合理地分別控制各子帶的量化電平數目和相應的重建誤差,使碼率更精確地與各子帶的信號源特性相匹配。通常,在低頻基音附近,采用較大的比特數目來表示取樣值,而在高頻段則可分配以較小的編碼比特。其次,通過合理分配不同子帶的比特數,可控制總的重建誤差頻譜形狀,通過與聲學心理模型相結合,可將噪聲頻譜按人耳主觀噪聲感知特性來形成。于是,利用人耳聽覺掩蔽效應可節省大量比特數。
在采用子帶編碼時,利用了聽覺的掩蔽效應進行處理。它對一些子帶信號予以刪除或大量減少比特數目,可明顯壓縮傳輸數據總量。比如,不存在信號頻率分量的子帶,被噪聲掩蔽的信號頻率的子帶,被鄰近強信號掩蔽的信號頻率分量子帶等,都可進行刪除處理。另外,全系統的傳輸信息量與信號的頻帶范圍、動態范圍等均有關系,而動態范圍則決定于量化比特數,若對信號引入合理的比特數,可使不同子帶內按需要給以不同的比特數,也可壓縮其信息量。
二、MPEG-1音頻編碼方框圖
1、MPEG-1音頻編碼的依據
MPEG-1音頻壓縮編碼標準采用了心理學算法。利用感知模型刪去那些聽覺不靈敏的聲音數據,而使重建的聲音質量無明顯下降。它采用子帶編碼技術,根據心理聲學模型取得不同子帶的聽覺掩蔽閾值;對各子帶的取樣值進行動態量化。它根據不同頻段上大音量信號所引起的小音量信號掩蔽閾值的變化規律,對不同頻段給以不同的量化步長,以便保留主要信號,而舍棄對聽覺效果影響很小的成分,經過數據壓縮,可取得合理的比特流,將原來大約1.5Mbit/s的聲音傳輸碼率減少到0.3Mbit/s,即壓縮率可達到1/5。
2、編碼流程
圖2.3.2是基于MUSICAM(掩蔽模式通用子帶編碼和多路復用)的MPEG-1音頻壓縮編碼方框圖。輸入信號是經過取樣的二進制PCM數字音頻信號,取樣頻率可以取44.1KHz、48KHz或32KHz,該音頻數碼信號的碼值與原來采樣信號的幅度、頻率成正比。
數字音頻信號首先進入數字濾波器組,它被分成等帶寬的32個子頻帶,可由數字濾波器輸出32個子帶數據信號。這種處理方法與圖像編碼信號進行DCT變換的作用相似,但不是像圖像信號那樣分為64種余弦頻率信息,這里僅分成32個子帶,即將音頻數據流改為32種頻率的組合。聲音的分解力低于圖像,這種處理方法是可行的。然后,對32個子帶的伴音數據進行再量化,以便再壓縮數據量。對于各個子頻帶的量化步長不相同,量化步長是根據人耳的聽覺閾值和掩蔽效應而確定的。經過量化處理的已壓縮數據,保留了伴音信息的主體部分,而舍棄了聽覺效果影響較小的伴音信息。
進入編碼系統的輸入信號,分流部分信號送到并列的1024點快速傅利葉變換器(FFT)進行變換,它檢測輸入信號每一個瞬間取樣點在主頻譜分量頻域的分布的強度,經變換的信號送到心理聲學模型控制單元。根據聽覺心理聲學測量統計結果,可以歸納出一個心理聲學控制對照表格,并按照此表格制成控制單元,而單元電路可以集中地反映出人耳的閾值特性和掩蔽特性。
經過量化的32個子頻帶數據已經被壓縮,還要加上比例因子、位分配信息等輔助信息,共同加到1位流格式化單元,編碼成為兩個層次的伴音編碼信號。它既含有32個子頻帶的伴音數碼,又帶有這些數碼所對應的位分配數據和不同頻帶數據的強弱比例因子。待將來數據解碼時,可根據各子頻帶的數據恢復聲音信號,以及壓縮時碼位分配和強弱比例情況,在進行反量化時,參照壓縮時的程序進行還原。
可見,伴音的壓縮編碼和圖像處理一樣,也要經過變換、量化、碼位壓縮等處理過程,它運用了許多數學模型和心理聽覺測量的統計數據,對32個子頻帶和各個層次信號的處理也各有不相同的取樣速率。實際的心理聽覺模型和適時處理控制過程十分復雜。這些算法細節都已按硬件方式被固化在解碼芯片中,這些內容不能再改變。
3、伴音與圖像的同步
圖像和聲音信號的壓縮方法有許多不同,圖像數據量又遠遠大于聲音數據量,兩者傳送的數據碼率大不相同。每傳送14~15個視頻數據包才傳送1個音頻數據包,而播放聲音和圖像的內容又必須作到良好同步,否則將無法保證視聽統一的效果。
為了作到聲圖同步,MPEG-1采用了獨立的系統時鐘(簡稱為STC)作為編碼的參照基準,并將圖像和聲音的數據分為許多播放單元。例如,將圖像分為若干幀,將聲音分為若干段落。在數據編碼時,在每個播放單元前面加置一個展示時標(PTS),或者加置一個解碼時標(DTS)。當這些時標出現時,表示前一個播放單元已經結束,一個新的圖像和聲音播放單元立即開始。在播放相互對應的同一圖像單元和聲音單元時,可實現互相同步。
為了使整個系統在時鐘在編碼和重放時,聲圖有共同的時鐘基準,又引入系統參考時鐘SCR的概念。系統參考時鐘是一個實時時鐘,其數值代表聲圖的實際播放時間,用它作為參照基準,以保證聲圖信號的傳輸時間保持一致。實時時鐘SCR必須與生活中的真實時間一致,要求它的準確度很高,否則可能發生聲音和圖像都播快或播慢的現象。為了使SCR時間基準穩定、準確,MPEG-1采用了系統時鐘頻率SCF,以它作為定時信息的參照基礎。SCF系統時鐘的頻率是90KHz,頻率誤差為90KHz±4.5KHz。聲圖信號以SCF為統一的基準,其它定時信號SCR、PTS、DTS也是以它為基礎。
三、其它MPEG標準的音頻編碼器
1、MPEG-2音頻編碼方框圖
MPEG-1是處理雙聲道立體聲信號,而MPEG-2是處理5聲道(或7聲道)環繞立體聲信號,它的重放效果更加逼真。
圖2.3.3是MPEG-2音頻編碼方框圖。它輸入互相獨立的5聲道音頻信號,有前置左、右主聲道(L、R),前置中央聲道(C),還有后置左、右環繞聲道(LS、RS)。各聲源經過模-數轉化后,首先進入子帶濾波器,每一聲道都要分割為32個子頻帶,各子帶的帶寬均為750Hz。為了兼容MPEG-1、普通雙聲道立體聲和環繞模擬立體聲等編碼方式,原來按MPEG-1編碼的立體聲道能夠擴展為多聲道,應當包括所有5聲道的信息,為此設置了矩陣變換電路。該電路可生成兼容的傳統立體聲信號LO、RO,還有經過“加重”的左、中、右、左環繞、右環繞聲音信號(共5路)。對5路環繞立體聲信號進行“加重”處理的原因:當計算兼容的立體聲信號(LO、RO)時,為了防止過載,已在編碼前對所有信號進行了衰減,經加重處理可以去失真;另外,矩陣轉變中也包含了衰減因子和類似相移的處理。
編碼器原始信號是5路,輸入通道是5個,經過矩陣轉化處理后產生了7種聲音信號。應當設置通道選擇電路,它能夠根據需要,對7路信號進行合理的選擇處理。該處理過程決定于解矩陣的過程,以及傳輸通道的分配信息;合理的通道選擇,有利于減弱人為噪聲加工而引起的噪聲干擾。此外,還設置了多聲道預測計算電路,用于減少各通道間冗余度。在進行多聲道預測時,在傳輸通道內的兼容信號LO、RO,可由MPEG-1數據計算出來。根據人耳生理聲學基
礎,后級設置了動態串話電路,可在給定比特的情況下提高聲音質量,或在要求聲音質量的前提下降低比特率。但設置該電路增加了MPEG-2解碼器的復雜程度。
經過編碼器產生了多種信息,主要有編碼取樣值,比例因子,比特分配數據,動態串話模式,多聲道預測信息,通道預測選擇信號等,諸信息傳遞給復接成幀模塊電路,最后以MPEG-2比特流形式輸出壓縮編碼信號。
MPEG-2解碼器基本上是編碼器的逆過程,其電路結構簡單一些,運算量小一些。解碼器的解碼轉換矩陣可輸出5路信號,再經過32分頻子帶濾波器處理,可輸出LS、L、C、R、RS信號;另外,經過量化、SCF和子帶濾波器處理后,還可以取得前置立體聲LO、RO,共計可輸出7路音頻信號。
2、MPEG-4音頻解碼
MPEG-4音頻編碼和MPEG-4視頻編碼一樣,具有許多特點和功能,例如可分級性,有限時間音頻流,音頻變化/時間尺度變化,可編輯性,延遲性等。它具優越的交互性能和高壓縮比。它不僅利用分級方法可對語言和音樂進行編輯,也能解決合成語言和音樂問題,它將成為多媒體世界的一個主要格式,將成為“全能”的系統。
通過MPEG-4音頻編碼,可以存儲、傳送多種音頻內容。它具有高質量的音頻信號(單聲道、立體聲和多通道)。它采用低碼率編碼,而聲音重放質量很高。它可以傳送寬帶語言信號(例如7KHz寬的語音),也可傳送窄帶寬語言信號(例如長途電話)。可以傳輸、制作可理解的各種語音信號。可以合成語言,例如進行音素或其它記號為基礎的文本轉換;也可以合成音頻,例如支持音樂描述語言。
四、杜比AC-3技術
1、什么是杜比AC-3
在杜比定向邏輯環繞聲技術的基礎上,于1990年杜比公司與日本先鋒公司合作,采用先進的數位壓縮技術,推出新穎的全數字化杜比數碼環繞聲系統。它可使多聲道信號有更多的信息被壓縮到雙聲道中去,并將這種系統稱為AC-3。AC是英語“音頻感覺編碼系統”的縮寫詞。AC-3技術首先應用到電影院,后來又進入普通家庭。
杜比AC-3系統設置完全獨立的6個聲道,即全頻帶的左、中、右、左環繞和右環繞聲道,再加上一個超重低音聲道。由于這樣聲道的結構,AC-3系統又稱為5.1聲道。
2、杜比AC-3的基本原理
(1)應用聽覺掩蔽效應開發出自適應編碼系統
AC-3技術的理論基礎,也是利用心理聲學中的聽覺閾值和掩蔽效應,但具體技術上與MPEG標準又有所不同。
對音頻信號進行數據處理時,都要進行數據壓縮,將沒有用途或用途不大的數據信息忽略掉。為此,可以應用聽覺閾值和掩蔽規律,省略掉那些多余的數據信息。杜比公司除運用上述聲學原理外,還運用了它擁有的杜比降噪技術,開發出數碼化的“自適應編碼”系統。這是一種極具選擇性和抑制噪聲能力的自適應編碼體系。杜比公司依據音響心理學的基本原理,在未輸入音樂信號時,保持寧靜狀態;當輸入音樂信號時,對復雜的音頻信號進行分析和分解,用較強信號掩蔽噪聲,刪除聽覺界限以外,或由于頻率相近而音量小的信號,經過這種處理方法,可以大大減少需要處理的數據信息。人耳的聽覺范圍是20Hz-20KHz,在如此寬闊的頻帶范圍內,人耳對不同頻率的聽覺靈敏度具有極大的差異。杜比AC-3根據這個特性,將各聲道的音響頻道劃分為許多大小不等的狹窄頻帶,各個子頻帶與人耳臨界頻帶的寬度相接近,保留有效的音頻,將不同的噪聲頻率緊跟每個聲道信號進行編碼,即編碼噪聲只能存在于編碼音頻信號的頻帶內。這樣能夠更陡峭地濾除掉編碼噪聲,將頻帶內多余信號和無音頻信號的編碼噪聲降低或除掉,而將有用的音頻信號保留下來。AC-3系統精確地運用了掩蔽效應和“公用位元群”的設計方法,使數據壓縮效率大大提高,且具有很高水平的音質。該系統的比特率是根據個別頻譜的需要,或者音源的動態狀況,再分配到每個窄頻段,它設計了內置的聽覺掩蓋程序,可讓編碼器改變其頻率靈敏度和時間分解力,以確保有充足的比特被采用,掩蓋掉噪聲,而良好地記錄音樂信號。
為了高效地利用有限的信息傳輸介質(光盤、膠片等),它在壓縮音頻信號時與其它壓縮系統一樣,利用人耳的聽覺特性,根據當時的具體情況,將某些聲道的系數合并(這些聲道系數反映了那個頻帶的能量大小),以便提高壓縮率。并不是所有聲道都能進行這種合并。編碼器可根據各聲道的信息特征自動決定和調整,只有相似的聲道才能混合在一起,若壓縮比不要求很高時也不必合并。一般情況下,合并的起始頻率越高,音質就越好,但要求數據傳輸速率也越高。當取樣頻率為48KHz時,合并的起始頻率應為3.42MHz;若取樣頻率為44.1KHz時,起始頻率應為3.14MHz。若硬件和軟件搭配適當,AC-3的音質可達到或接近CD唱片的水平。
(2)杜比AC-3解碼器簡易方框圖
AC-3解碼器輸入信號是一組頻譜信號,它是由時域信號PCM數據經過時-頻變換而得到。該頻譜數據流分為指數部和尾數部兩部分,指數部分采用差分方式進行編碼,編碼后的指數代表了整個信號的頻譜,可作為頻譜包絡的參數。其尾數部分按照比特分配的結果進行量化。于是,量化尾數和頻譜包絡形成了AC-3碼流的主要信息,連同其它輔助信號(例如比特分配等)構成了AC-3比特流。
圖2.3.4是AC-3系統的解碼方框圖,它是AC-3編碼的逆過程。AC-3比特流首先進入緩沖級,然后以幀為處理單元進行誤碼糾錯,經糾錯處理后對比特流中的固定數據(指數數據、匹配系數、模式符號等)解碼,使數據比特流恢復為原來的比特分配。
然后,數據信號分為兩路。其中一路,將比特流恢復為原來的比特分配之后,確定尾數部量化的大小,再對比特流中的可變數據解碼;再接著恢復高頻成分,為反頻率變換做好準備。最后,將指數部數據和尾數部數據匯合,變換為固定小數點數據,再對它進行頻率變換,以獲得時間軸數據。已經恢復為時域的數據信號需進行窗處理,進行重疊加算,即可得到5.1環繞聲道的輸出信號。
3、杜比AC-3的特點
(1)配置5.1聲道
將輸入的音頻信號解碼后,可以輸出5.1聲道信號,其中有3個前置聲道(L、C、R),還有2個后置環繞聲道(LS、RS),它們互相獨立,頻響寬度都是全聲頻域,即20Hz-20KHz(±0.5dB)及3Hz-20.3KHz(-3dB),各頻道的頻響十分寬闊。目前,廣泛應用于音響系統的杜比定向邏輯環繞聲系統,無法和杜比AC-3頻帶寬度相比。還有,杜比定向邏輯環繞聲系統實為4聲道系統,即前置左、中、右和后置環繞聲,它的環繞聲實為單聲道環繞聲,兩個后置環繞聲道重放共同的聲音信號,兩聲道采取并聯甚至串聯方式;其環繞聲的頻響被限制在100Hz-7KHz范圍內;另外,它沒有設置獨立的超低音聲道,它是由前置左、右聲道分離出20Hz-120Hz的超重低音,來重放具有震撼效果的超重低音。AC-3系統配置了獨立的超低聲道,其頻響為20Hz-120HZ(±0.5dB)及3Hz-121Hz(-3dB),要求超低音箱的音量比其它各聲道大10dB,具有更加震撼的低效果。
(2)各聲道全數字化且互相獨立
AC-3各聲道互相獨立地攜帶不同信號,是全數字化音頻信號。取樣頻率是32、44.1或48KHz,數據傳輸量每聲道為32kb/s-640kb/s,在5.1聲道模式下取典型值384kb/s,在雙聲道模式下典型值為192kb/s。經過數字處理后,5個主聲道的頻率壓縮在20Hz-20KHz范圍內。
(3)可將5.1聲道壓縮輸出
由于AC-3的“比特流”內對每種節目方式(單聲道、立體聲、環繞聲等)都有一個“指導信號”,能使AC-3自動地為使用者指出節目方式。它可把5.1聲道信號壓縮為雙聲道,以供給錄制常規VHS錄像帶,或作為杜比環繞聲的輸入節目源,以便與它兼容,它甚至可將5.1聲道信號壓縮為單聲道輸出。總之,AC-3可輸出5.1聲道杜比環繞聲、混合4聲道杜比環繞聲、雙聲道立體聲及單聲道。將5.1聲道數據壓縮后所占頻帶較窄,例如可在LD影碟機的FM調制的右聲道所占用的頻帶寬度內,編入AC-3數據編碼,輸出AC-3的RF信號,它的中心頻率取在2.88MHz,可由LD原先的模擬輸出右聲道取出頻率為2.88MHz的AC-3編碼信號。于是,在原有一個模擬聲道內就能夠容納5.1聲道的全部內容。
(4)經過聲音時間校準使音效極為理想
杜比AC-3將所有聲道通過“時間校準”技術,使每個揚聲器的聲音好像與聆聽者的距離相同,以產生更好的音響效果,其環繞聲效果不僅是前、后、左、右的聲源定位鮮明,上下的音場也清晰可辨。
評論