| 摘要:從語(yǔ)音編碼技術(shù)中常用的三種編碼方法入手,由淺入深地引出了IP網(wǎng)絡(luò)電話中常用的幾種語(yǔ)音壓縮編碼方法,并對(duì)之進(jìn)行了性能分析和比較。 關(guān)鍵詞:IP網(wǎng)絡(luò)電話 語(yǔ)音壓縮編碼 線性預(yù)測(cè)(LP) 合成-分析法 隨著互聯(lián)網(wǎng)的迅速發(fā)展,最近幾年出現(xiàn)了一種在互聯(lián)網(wǎng)上提供電話服務(wù)的新業(yè)務(wù)——IP電話業(yè)務(wù)。一次IP電話呼叫的成本為本地市話費(fèi)、IP網(wǎng)絡(luò)使用費(fèi)以及遠(yuǎn)端市話費(fèi),與傳統(tǒng)長(zhǎng)途電話昂貴的長(zhǎng)途通信費(fèi)相比,可以極大地降低用戶的通信費(fèi)用。正是由于這種極大的價(jià)格優(yōu)勢(shì),使得它一出現(xiàn)便引起了世人充分的注意,同時(shí)互聯(lián)網(wǎng)的蓬勃發(fā)展,有效地利用現(xiàn)有的網(wǎng)絡(luò)資源,來緩解現(xiàn)有通信網(wǎng)的緊張局面,也是促成這項(xiàng)新技術(shù)迅速發(fā)展的另一原因。從另一個(gè)角度來看,互聯(lián)網(wǎng)的巨大成功,必將使IP成為未來信息網(wǎng)絡(luò)的支柱技術(shù),以IP為核心的分組化和以移動(dòng)通信為核心的無線化已成為電信網(wǎng)絡(luò)演進(jìn)的主流方向。其于TCP/IP的網(wǎng)絡(luò)技術(shù)不但無可置疑地成為數(shù)據(jù)領(lǐng)域的主導(dǎo)技術(shù),而且已經(jīng)開始進(jìn)入電信領(lǐng)域,其突破口就是電話業(yè)務(wù)。IP網(wǎng)絡(luò)電話的成功開發(fā)和應(yīng)用,預(yù)示了以IP為基礎(chǔ)的新一代信息網(wǎng)絡(luò)的出現(xiàn)。積極地探索和跟蹤這項(xiàng)新技術(shù)無疑是一項(xiàng)十分有必要和有意義的工作。 IP網(wǎng)絡(luò)電話是一項(xiàng)涉及計(jì)算機(jī)網(wǎng)絡(luò)、信令協(xié)議、數(shù)字信號(hào)處理等多個(gè)領(lǐng)域的綜合性技術(shù),它具有價(jià)格低廉、可以靈活地提供各種增值業(yè)務(wù)、有利于企業(yè)建立高效綜合服務(wù)內(nèi)部網(wǎng)、有利于運(yùn)營(yíng)商開拓新的市場(chǎng)、有助于和IP網(wǎng)絡(luò)新技術(shù)的融合、促進(jìn)網(wǎng)絡(luò)技術(shù)的發(fā)展等獨(dú)特的優(yōu)勢(shì)。其中價(jià)格低廉是IP電話能夠進(jìn)入市場(chǎng)的首要因素,其根本原因是IP電話均采用語(yǔ)音分組技術(shù)、語(yǔ)音壓縮編碼和統(tǒng)計(jì)復(fù)用,帶寬利用率高,完成一次通信所需的成本大幅度降低。IP網(wǎng)絡(luò)電話中的語(yǔ)音處理主要需要解決兩個(gè)問題,一是在保證一定話音質(zhì)量的前提下盡可能地降低編碼比特率,二是在IP網(wǎng)絡(luò)環(huán)境下保證一定的通話質(zhì)量。前者正是我們剛剛提到的語(yǔ)音編碼技術(shù)。 1 語(yǔ)音編碼技術(shù)的分類 語(yǔ)音處理的研究是和通信技術(shù)的發(fā)展服密切相關(guān)的。人們?yōu)樘岣咄ㄐ畔到y(tǒng)的效率而研究語(yǔ)音編碼方法,為滿足低碼率的通信要求,而研究語(yǔ)音分析合成系統(tǒng)——聲碼器。研究語(yǔ)音編碼就是要解決傳輸速率和語(yǔ)音質(zhì)量的矛盾。最早的標(biāo)準(zhǔn)化語(yǔ)音編碼系統(tǒng)是速率為64kb/s的PCM波形編碼器。到二十世紀(jì)90年代中期,速率為4ks/s~8kb/s的波形與參數(shù)混合編碼器,在語(yǔ)音質(zhì)量上已逼近前者的水平且已達(dá)到實(shí)用化階段。根據(jù)語(yǔ)音編碼的發(fā)展過程,我們把該技術(shù)歸納為以下三類: (1)波形編碼(或稱為非參數(shù)編碼) 波形編碼方式是能夠忠實(shí)地表現(xiàn)波形的編碼方式。語(yǔ)音信號(hào)的波形編碼力圖使重建的語(yǔ)音波形保持原語(yǔ)音信號(hào)的波形狀態(tài)。這類編碼器通常是將語(yǔ)音信號(hào)作為一般的波形信號(hào)來處理,比如:脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM或ΔM編碼)、自適應(yīng)差分編碼(ADPCM)、自適應(yīng)預(yù)測(cè)編碼(APC)、自適應(yīng)子帶編碼(ASBC)、自適應(yīng)變換編碼(ATC)等都屬于這類編碼器。以上幾種波形編碼方式分別在64kb/s~16kb/s的速率上能給出高的編碼質(zhì)量。當(dāng)速率進(jìn)一步降低時(shí),其性能會(huì)下降較快。由于這類編碼器通常將語(yǔ)音信號(hào)作為一般的波形信號(hào)來處理,所以它具有適應(yīng)能力強(qiáng)、話音質(zhì)量好、抗噪抗誤碼的能力強(qiáng)等特點(diǎn),但所需的編碼速率高,其中64kb/s PCM的語(yǔ)音質(zhì)量成為一個(gè)編碼質(zhì)量的參照標(biāo)準(zhǔn)。 (2)參數(shù)編碼(或稱為模型編碼或聲碼化編碼) 參數(shù)編碼是根據(jù)聲音的形成模型,把聲音變換成參數(shù)的編碼方式。其基本方法是通過對(duì)語(yǔ)音信號(hào)特征參數(shù)的提取及編碼, 力圖使重建語(yǔ)音信號(hào)具有盡可能的可懂性,即保持原語(yǔ)音的語(yǔ)義。而重建的信號(hào)的波形同原語(yǔ)音信號(hào)的波形可能會(huì)有相當(dāng)大的差別。參數(shù)編碼的典型例子語(yǔ)音信號(hào)的線性預(yù)測(cè)編碼(LPC)已被公認(rèn)為是目前參數(shù)編碼中最有效的方法,它能夠在2.4kb/s的低比特速率下獲得清晰、可懂的合成音。并且易于硬件實(shí)現(xiàn)。這種方法的優(yōu)點(diǎn)是不但能極為精確地估計(jì)參數(shù),還在于它的計(jì)算速度比較快。另外多帶激勵(lì)(MBE)編碼,余弦變換編碼(STC)均屬參數(shù)編碼。 由于參數(shù)編碼是保護(hù)語(yǔ)聲模型,重建清晰可識(shí)別的語(yǔ)聲,而不注重波形的擬合,所以這類編碼技術(shù)實(shí)現(xiàn)的是合成語(yǔ)聲質(zhì)量下的低速或極低速的編碼。參數(shù)編碼的優(yōu)點(diǎn)是:編碼速率低,編碼速率通常小于4.8kb/s,可以低至600b/s至2.4kb/s。缺點(diǎn)是:合成語(yǔ)音質(zhì)量差,特別是自然度較低,連熟人之間都不一定能聽出講話人是誰(shuí);另外,這類編碼器對(duì)講話環(huán)境噪聲較敏感,需要安靜的講話環(huán)境才能給出較高的可懂度,且時(shí)延大。 (3)混合編碼 混合編碼是將波形編碼與參數(shù)編碼結(jié)合而產(chǎn)生的一種編碼方式。使語(yǔ)音編碼技術(shù)有了突破性的進(jìn)展。其中提出了一些非常有效的處理方法,產(chǎn)生了新一代的參數(shù)編碼算法,構(gòu)成了新一代的聲碼器。 混合編碼結(jié)合了以上兩種編碼方式的優(yōu)點(diǎn),采用線性技術(shù)構(gòu)成聲道模型,不只傳輸預(yù)測(cè)參數(shù)和清濁音信息,而是將預(yù)測(cè)誤差信息和預(yù)測(cè)參數(shù)同時(shí)傳輸,在接收端構(gòu)成新的激勵(lì)激去激勵(lì)預(yù)測(cè)參數(shù)構(gòu)成的合成濾波器,使得合成濾波器輸出的信號(hào)波形與原始語(yǔ)聲信號(hào)的波形最大程序的擬合,從而獲得自然度較高的語(yǔ)聲。這種編碼技術(shù)的關(guān)鍵是:如何高效地傳輸預(yù)測(cè)誤差信息。依據(jù)對(duì)激勵(lì)信息的不同處理,這類編碼主要有:多脈沖線性預(yù)測(cè)編碼(MPLPC)、規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPELPC)、碼激勵(lì)線性預(yù)測(cè)編碼(CELPC)、低時(shí)延的碼激勵(lì)線性預(yù)測(cè)編碼(LD-CELPC)。 混合編碼克服了原有波形編碼器與聲碼器的弱點(diǎn),而結(jié)合了它們的優(yōu)點(diǎn),在4~16kb/s速率上能夠得到高質(zhì)量合成語(yǔ)音。在本質(zhì)上具有波形編碼的優(yōu)點(diǎn),有一定抗噪和抗誤碼的性能,但時(shí)延較大。 2 語(yǔ)音壓縮編碼的原理 IP網(wǎng)絡(luò)電話中的語(yǔ)音處理需要解決的兩個(gè)問題之一是在保證一定話音質(zhì)量的前提下,盡可能降低編碼比特率。這主要依靠語(yǔ)音編碼技術(shù)來解決。IP網(wǎng)絡(luò)電話宜使用ITU-T定義的低比特率編碼標(biāo)準(zhǔn),其比特率為5.3~16kbit/s,均為低復(fù)雜度編碼算法,話音分組長(zhǎng)度在30ms以下,話音質(zhì)量較好。從前面列舉的幾種編碼方式也可看出,同一段語(yǔ)音信號(hào),采用不同的編碼方式,其編碼后的比特率各不相同。那么為什么我們能夠?qū)φZ(yǔ)音信號(hào)進(jìn)行壓縮編碼從而達(dá)到降低語(yǔ)音信號(hào)的比特率呢? (1)利用了語(yǔ)音信號(hào)的相關(guān)性 語(yǔ)音信源是相關(guān)信源,因此經(jīng)過采樣和量化的信號(hào)之間還有很強(qiáng)的相關(guān)性,為了降低編碼速率,人們就希望盡可能多地去除語(yǔ)音信號(hào)之間的相關(guān)性。線性預(yù)測(cè)編碼技術(shù)(LPC)就是一種用來去除語(yǔ)音信號(hào)之間相關(guān)性的常用技術(shù)。語(yǔ)音信號(hào)中存在兩種類型的相關(guān)性:其一是在樣點(diǎn)之間短時(shí)相關(guān)性。語(yǔ)音信號(hào)在某些短時(shí)段中呈現(xiàn)出隨機(jī)噪聲的特性,在另一些短時(shí)段中,則呈現(xiàn)出周期信號(hào)的特性,其它一些是二者的混合。 |