聲音其實是一種能量波,因此也有頻率和振幅的特征,頻率對應于時間軸線,振幅對應于電平軸線。我們知道,在可聽見的聲音中,話音信號的頻段在80Hz到3400Hz之間,音樂信號的頻段在20Hz-20kHz之間,語音(話音)和音樂是多媒體技術重點處理的對象。通常人耳可以聽到的頻率在20Hz到20KHz的聲波稱為為可聽聲,低于20Hz的成為次聲,高于20KHz的為超聲,多媒體技術中只研究可聽聲部分。
一:數字化音頻的三個主要步驟
由于模擬聲音在時間上是連續的,麥克風采集的聲音信號還需要經過數字化處理后才能由計算機處理。通常我們采用PCM編碼(脈沖代碼調制編碼),即通過采樣、量化、編碼三個步驟將連續變化的模擬信號轉換為數字編碼。
1、采樣
采樣,就是每隔一段時間間隔讀一次聲音的幅度。單位時間內采樣的次數稱為采樣頻率。顯然采樣頻率越高,所得到的離散幅值的數據點就越逼近于連續的模擬音頻信號曲線,同時采樣的數據量也越大。
為了保證數字化的音頻能夠準確(可逆)地還原成模擬音頻進行輸出,采樣定理要求:采樣頻率必須大于等于模擬信號頻譜中的最高頻率的2倍。
常用的音頻采樣率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。
例如:話音信號頻率在0.3~3.4kHz范圍內,用8kHz的抽樣頻率(fs),就可獲得能取代原來連續話音信號的抽樣信號,而一般CD采集采樣頻率為44.1kHz。
2、量化
量化,就是把采樣得到的聲音信號幅度轉換成數字值,用于表示信號強度。
量化精度:用多少個二進位來表示每一個采樣值,也稱為量化位數。聲音信號的量化位數一般是 4,6,8,12或16 bits 。
由采樣頻率和量化精度可以知道,相對自然界的信號,音頻編碼最多只能做到無限接近,在計算機應用中,能夠達到最高保真水平的就是PCM編碼,通常PCM約定俗成了無損編碼。
3、編碼
一個采樣率為44.1kHz,量化精度為16bit,雙聲道的PCM編碼輸出,它的數據速率則為 44.1K×16×2 =1411.2 Kbps,存儲一秒鐘需要176.4KB的空間,1分鐘則約為10.34M,因此,為了降低傳輸或存儲的費用,就必須對數字音頻信號進行編碼壓縮。
到目前為止,音頻信號經壓縮后的數碼率降低到32至256kbit/s,語音可以低至8kbit/s以下。
對數字音頻信息的編碼進行壓縮的目的是在不影響人們使用的情況下使數字音頻信息的數據量最少。通常用如下6個屬性來衡量:
—比特率;
—信號的帶寬;
—主觀/客觀的語音質量;
—延遲;
—計算復雜度和對存儲器的要求;
—對于通道誤碼的靈敏度;
為使編碼后的音頻信息可以被廣泛地使用,在進行音頻信息編碼時需要采用標準的算法。傳統會議電視設備主要采用ITU-T推薦的G.711、G.722、G.728和AAC_LD等音頻標準。
在音頻設備的介紹里面會經??吹?a target="_blank">產品資料里有各式各樣所支持的音頻格式和協議,下面我們來詳細講解下藍牙耳機、會議電視的常用音頻協議。
藍牙耳機常用音頻協議有哪些

HFP:HFP(Hands-free Profile),讓藍牙設備可以控制電話,如接聽、掛斷、拒接、語音撥號等,拒接、語音撥號要視藍牙耳機及電話是否支持。汽車內的汽車套件是常見的使用情景。汽車套件將連接至手機并用于撥打和接聽電話。將無線耳機連接至手機后使用耳機撥打和接聽電話則更為常見。
HSP:耳機模式(HSP)用于支持藍牙耳機與移動電話之間使用免提模式(HFP)常用來讓車用免提溝通與車內移動電話
A2DP:A2DP全名是Advanced Audio Distribution Profile 藍牙音頻傳輸模型協定! A2DP是能夠采用耳機內的芯片來堆棧數據,達到聲音的高清晰度。然而并非支持A2DP的耳機就是蘭阿姨耳機立體聲,立體聲實現的基本要求是雙聲道,所以單聲道的藍牙耳機是不能實現立體聲的。聲音能達到44.1kHz,一般的耳機只能達到8kHz。如果手機支持藍牙,只要裝載A2DP協議,就能使用A2DP耳機了。還有消費者看到技術參數提到藍牙V1.0 V1.1 V1.2 V2.0——這些是指藍牙的技術版本,是指通過藍牙傳輸的速度,他們是否支持A2DP具體要看藍牙產品制造商是否使用這個技術。
AVRCP:AVRCP 設計用于提供控制TV、Hi-Fi設備等的標準接口。此配置文件用于許可單個遠程控制設備(或其它設備)控制所有用戶可以接入的A/V設備。它可以與 A2DP 或 VDP 配合使用。AVRCP 定義了如何控制流媒體的特征。包括暫停、停止、啟動重放、音量控制及其它類型的遠程控制操作。AVRCP 定義了兩個角色,即控制器和目標設備。
APTX:AptX是一種壓縮技術,好比是ALAC,本身是支持無損的,但是被用在藍牙技術中的時候,由于種種原因,還是有損,只不過屬于比較高碼率的有損。
OPP
藍牙通信程序部分需采用用于設備之間傳輸數據對象OPP Profile: Object Push Profile由于OPP profile又細分為OPPC (client)端和OPPS(server)端profile,這兩個profile區別在于只有client端可以發起數據傳輸的過程,但是附件設備與手機通信的情景中,既有手機發起數據傳輸請求也有設備側發起傳輸請求的需要,所以要在設備中實現OPPC和OPPS兩個profile。
PBAP
電話號碼簿訪問協議(Phonebook Access Profile)
會議電視常用音頻協議有哪些

1、 ITU-T G.728
1992年ITU-T發布的電話聲音信號編碼方式推薦標準。采用LD-CELP編碼方式,采樣率為8KHz,以16kb/秒的速度傳送聲音信號,傳送延遲時間極短,僅有0.625 ms 的算法編碼延遲。
2、 ITU-T G.711
標準公布于1972年,其語音信號編碼是非均勻量化PCM。語音的采樣率為8KHz,每個樣值采用8bit量化,輸出的數據率為64kbps。這種窄帶編碼支持對300到 3,400赫茲的音頻進行壓縮。但雖然壓縮質量不錯,但是消耗的帶寬相對較大,主要用于數字PBX/ISDN上的數字式電話。
3、 ITU-T G.722
ITU-T G.722標準是第一個用于 16 KHZ 采樣率的標準化寬帶語音編碼算法,1984年被CCITT定義為標準,而且現今還在使用。.G.722 編解碼器在 16 kHz 頻率上接收 16 位數據(帶寬從 50 Hz 至 7 kHz),并將其壓縮為 64、56 與 48 Kbit/s,其總延遲約 3 ms,能夠提供更好的通話質量。
G.722的優點是延時和傳輸位誤差率非常低,且沒有任何的專利技術,費用低廉。因此G.722在無線通信系統,VoIP生產商,個人通信服務,視頻會議應用等廣泛應用。
4、 G.722.1
G.722.1基于 Polycom 的第三代 Siren 7 壓縮技術,1999年被ITU-T批準為G.722.1標準。G.722.1采用16 KHZ 采樣頻率,16 位數據量化,支持從 50 Hz 至 7 kHz頻率范圍的音頻采樣,并將其壓縮為 32 與 24 Kbit/s。它采用20 ms封幀,提供40ms的算法延遲。
G722.1可實現比 G.722 編解碼器更低的比特率以及更大的壓縮。目標是以大約一半的比特率實現與 G.722 大致相當的質量。這種編碼使用許可需要獲得Polycom公司的授權。
5、 G722.1 Annex C
G722.1 Annex C基于 Polycom 的Siren 14 壓縮技術, 采用32kHz采樣頻率,支持從 50 Hz 至 14 kHz頻率范圍的音頻采樣,并將其壓縮為 24、32或48 kbps。采用20ms封幀,提供40毫秒演算延遲。
2005年中,國際電信聯盟(ITU)批準Polycom Siren 14? 技術為14 kHz超寬帶音頻編碼新標準。同時進入作為ITU-T建議的G.722.1 Annex C。 G722.1 Annex C具有低運算能力,低帶寬的優點。適于處理語音、音樂與自然界聲音。
6、 AAC-LD
AAC(Advanced Audio Coding,高級音頻編碼)是由Fraunhofer研究院(MP3格式的創造者)、杜比(DOLBY)試驗室和AT&T(美國電話電報公司)共同研發出的一種音頻壓縮格式,是MPEG-2規范的一部分,并在1997年3月成為國際標準。隨著MPEG-4標準在2000年成型后,MPEG2 AAC也被作為核心編碼技術,并增加了一些新的編碼特性,又叫MPEG-4 AAC。
MPEG-4 AAC家族目前共有九種編碼規格,AAC-LD(Low Delay,低延遲規格)是用在低碼率下編碼。它支持8K~48K采樣率的,可以64Kbps的碼率輸出接近 CD 音質的音頻,并支持多聲音通道,AAC-LD 算法延遲僅為 20ms。
AAC因為其模塊化設計,功能更為強大。本身的框架結構能夠被不斷的新的東西填充,這就使得不同發展方面的內核相互融合,彼此吸收精華成為可能。
7、 各種音頻協議的主要參數對比:
采樣頻率 支持音頻帶寬 輸出碼率 最低算法延遲
G711 8KHz 300 Hz ~ 3,400 Hz 64 Kbps 《1ms
G722 16kHz 50 Hz ~ 7 kHz 64 Kbps 3ms
G722.1 16kHz 50 Hz ~7 kHz 24、32 Kbps 40ms
G722.1 C 32kHz 50 Hz~14 kHz 24、32、48Kbps 40ms
AAC-LD 48kHz 20 Hz-20kHz 48~64 Kbps 20ms
三、AAC_LD與G722. Annex C優缺點對比:
G722.1 C AAC_LD
采樣音頻頻率范圍支持50 Hz~14 kHz,接近CD音質,但丟失了高頻部分。
支持20 Hz-20kHz全頻段的采樣,音頻更加接近CD音質。
輸出碼率24、32、48Kbps,帶寬低于AAC-LD,但是以犧牲高頻為代價的。
48~64 Kbps,并支持大于64Kbps的輸出,為更好的音頻質量提供了可能。
算法復雜性算法復雜度低,CPU占用率略好于AAC-LD 模塊化設計,功能更為強大,有TI等專用芯片支持
最低延遲采用20ms封幀,40ms算法延遲 20ms算法延遲,好于G722.1 C
多聲道可以支持雙聲道 AAC支持多達48個音軌、15個低頻音軌
標準通用性G722.1-C 由Polycom制定開發,使用需要Polycom授權,目前只有Polycom和極少數會議電視廠商使用。 作為MPEG4核心標準,受到Apple、諾基亞、松下等支持,并被泰德等眾多會議電視廠商所采用,應用前景更廣闊。
在相同的采樣頻率下,AAC-LD可以提供比G722.1 C、MP3等更好的音質。AAC-LD實現了超寬頻音頻編碼中最短的延時,并保證接近CD的音質,達到音質、比特率和延時三者的最佳組合,是會議電視領域的最優選擇。
評論