语音信号处理及其在IP网络电话中的应用-老古开发网

你的位置：老古开发网 > 其他 > 正文

语音信号处理及其在IP网络电话中的应用

内容导读：

引言

　　从技术角度讲，语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。用数字化的方法进行语音的传送、存储、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。

　　作为语音信号处理最重要应用之一的IP网络电话，由于具有价格低廉，可以灵活地提供各种增值业务，有利于企业建立高效综合服务内部网，有利于运营商开拓新的市场，有助于和新技术的融合以及促进网络技术发展等许多独特的应用优势而在近年里得到迅猛发展。 IP网络电话中的语音处理主要需解决两个问题，一是在保证一定话音质量的前提下尽可能降低编码比特率，二是在IP网络环境下保证一定的通话质量。前者主要是语音编码技术，包括静音检测;后者包括分组丢失补偿和回波抵消技术。

　　在语音编码方面，如何在中低速率上获得高质量的语音且算法复杂度较小，一直是研究的主要目标。70年代中期，特别是80年代以来，语音编码技术有了突破性进展，提出如多脉冲激励等一些有效的算法，产生了新一代的声码器，在16kbit/s以下速率上能够得到高质量的语音。

计算机和集成电路技术的发展，推动了语音信号处理的实用化。目前有很多专用语音处理芯片，这些芯片与微处理器或微型计算机相结合可以组成各种复杂的语音处理系统。

语音信号的基本特点及其产生模型

1. 语音信号的特点

　　语音是由一连串的音所组成，它是组成语言的声音。语音具有称为声学特征的物理性质。语音中各个音的排列由一些规则所控制。形成文章的基础是单词，各单词由音节组成，音节又由音素组成。音素分为两类：元音和辅音。重音、语调和声调也是构成语音学的一部分。

　　声道（由咽、口腔和鼻腔组成）是一个分布参数系统，它有许多自然谐振频率（在这些频率上其传递函数具有极大值），所以声道是一谐振腔，它放大某一频率而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。讲话时，舌和唇连续运动，使声道常常改变外型和尺寸，随即改变谐振频率。这些谐振频率称为共振峰频率，简称为共振峰，它是声道的重要声学特征。

2. 语音信号的数字模型

（1）激励模型（发声模型）

发浊音时，整个激励模型可表示为：

发清音时，声道可模拟成随机白噪声。

（2）声管模型（声道模型一）

　　最简单的声道模型是将其视为由多个不同截面积的管子串联而成的系统，在语音信号的某一“短时”期间，声道可表示为形状稳定的管道。每个管子可看作为一个四端网络，这个网络具有反射系数，这时声道可由一组截面积或一组反射系数来表示。

（3）共振峰模型（声道模型二）

　　将声道视为一个谐振腔，共振峰就是这个腔体的谐振频率。可以建立三种实用模型：级联型、并联型和混合型。

（4）辐射模型（终端模型）

口唇的辐射效应可表示为R(z)=R0(1-z-1)。

由上所述，完整的语音信号数字模型可以用三个子模型：激励模型、声道模型和辐射模型的串联来表示。其转移函数为

H(z)=U(z)V(z)R(z)

这里，U(z)是激励信号，V(z)是声道传递函数。R(z)如上式所示。

语音信号的分析

　　根据所分析的参数不同，语音信号分析可分为时域、频域、倒谱域等方法。时域分析具有简单、运算小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的。另一方面，按照语音学观点，可将语音分析分为模型分析法和非模型分析法两种。贯穿于语音分析全过程的是“短时分析技术”。相应于不同的分析方法，也就有不同的语音编码方法和标准。

语音编码标准

由ITU-T制定的IP电话使用的语音编码标准如下表所示：

（1）G.711

G.711是电话网中广为使用的64kbit/s PCM编码，属波形编码。目前IP网络电话一般采用5～16kbit/s比特率的中低速率编码器，但一般都支持G.711 PCM编码。虽然波形编码理论上只要预测阶数足够高、量化误差足够小，重建信号将收敛于原信号，而参数编码无论怎样都不能使重建信号将收敛于原信号;但是参数编码的一个重要优势是可以有效降低编码比特率，从而得到越来越广泛的应用。下面的标准都是参数编码。

（2）G.728

G.728比特率为16kbit/s，对具有背景噪声的信号或音乐具有很好的健壮性，抗随机比特差错能力优于G.711，可通过所有的网络信号音，还能通过2.4kbit/s的低比特率modem信号。

（3）G.723.1

G.723.1为双速率语音编码器，其中6.3kbit/s比特率采用多脉冲LPC编码，对于一般的语音信号，其语音质量相当于G.721，但对于童声、音乐和具噪声背景的语音输入，其质量不如ADPCM。5.3kbit/s比特率采用多脉冲码本激励，定义该速率的目的是增加系统设计的灵活性。如用于低速率通道时，可为视频编码器留出一些比特空间;可为复用系统提供1kbit/s的“虚信道”以传递附加信息。

（4）G.729和G.729A

G.729A是G.729的DSVD（语音和数据同时传送系统）形式，与G.729比特流兼容，即它们的编码都能被对方的解码器加以接收并重建信号。但G.729A的复杂度降低了50%，代价是在某些运行条件下性能稍有下降。

语音编码标准的改进

　　各种标准相继制定后，人们便不断地对其进行研究，并提出了一些改进的算法。总体来说，对低速率编码算法的改进，一般集中在提高重建语音信号的质量和减小算法的时延两方面。

* 提高重建语音信号质量

　　对噪声信号的优化处理，Paul Mermelstein 和 Yasheng Qian提出了一种广义基音预测（generalized pitch prediction）的CELP。与典型的CELP不同之处在于：对噪声部分，是语音信号被分解成可用自适应码本预测的预测分量和不能预测的非周期分量，而不是LPC残差信号。Pierre Combescure、Jürgen Schnitzler等人提出了一种自适应转换声码器（Adaptive Transform Codec,ATC）和CELP相组合的算法（ATCELP）。对语音信号，主要运用CELP算法;而对乐音和噪声信号，则采用ATC模式。与此原理类似，S.Heinen、M.Adrat等人提出了针对自适应多速率传输应用的变速率CELP（VR-CELP）。根据当前信道条件，在信源和信道间动态分配传输系统的总位速率。Tadashi Amada,Kimio Miseki and Masami Akamine提出的自适应分配候选脉冲位置的方案解决了低位速率时因候选脉冲位置和脉冲数的减少而导致重建语音信号质量的下降的问题。Roar Hagen and Erik Ekudden针对应用在许多现存的声码器中的典型的波形匹配LPAS结构对背景噪声处理欠佳的不足而提出了一种对语音信号和非语音信号处理都有较佳表现的综合了波形匹配和能量匹配的8kbit/s ACELP的声码器。

　　提高重建语音信号质量的另一途径是采用更好的帧丢失处理方法。至于具体的方案，上述有的论文已经涉及，可参考有关文献。

* 减小算法时延

　　对于采用码本结构的算法，减小算法时延一般集中在改进码本搜索上。杨树堂、周敬利、余胜生等人采用聚类优化策略实现了对码本的快速搜索。Miguel Arjona Ramirez and Gerken提出了幅度和位置的联合搜索方案来搜索代数多脉冲码本。该方案应用于G.723.1中，每一子帧比协议采用的集中搜索方法减少了2/3的比较数量。 Nam Kyu Ha提出了应用于CELP声码器中的代数码本的一种快速搜索方法：码本搜索的顺序根据目标矢量和滤波后的自适应码本矢量间的加权均方误差重新排序，码本搜索直至达到预定的门限。

结语

　　语音信号的特征及其数字化模型有待进一步完善，在IP网络电话应用中的算法还需不断改进，一言以蔽之，语音信号处理的研究及其应用仍待深入。

标签：

来源:今日电子作者:徐正伟汤静时间:2001/11/1 0:00:00