中国科技论文在线
http://www.paper.edu.cn
V
VoIP 语音
音编码技
技术研究
究与基于
于 ARM
M 的声码
码器架构
构设
计
上海
海交通大学,
E-mail
VoIP 通信的
分为波形编码和
解码技术是 V
技术可以被分
ion Union)制
制定的 G.71
。声码器是进
Processing)
成为了声码器
进行语音压缩编
)芯片的。鉴
器设计的一个
;声码器
;压缩编码;
N912.3
要:语音编解
摘 要
础。
Tele
术的
(D
ARM
关键
。语音编码技
ecommunicati
的协议标准。
Digital Signal
M 取代 DSP 成
键字:VoIP;
图分类号:TN
君
乔国君
,微电子学院,
l: byronqiao@h
的关键技术之一
和参数编码两
1、G.729、G
编码的器件,
鉴于 ARM 处理
个新的参考方
,上海,(2
hotmail.com
一,它是 IP
两大类,国际
G.723.1 是目
,传统声码器
理器高性能、
方向。
200030)
网络承载实
际电信联盟(
目前使用最为广
器的设计都是
、低成本、低
实时音频信息流
(ITU,Inter
广泛的语音编
是基于专用 D
低功耗的特点
流的基
rnational
编码技
DSP
点,使用
中图
1.
引言
进入二十一
战传
传统公共电话
提供
供较之传统电
(即
Netw
的技
即数据分组网
work)计划中
技术驱动力。
的浩
PST
浩大的网络基
TN 到 VoIP 的
语音编解码
器是 VoIP 设备
类、原理、协
码器
分类
2.
一世纪后,Vo
话交换网(PS
电话通信更为
oIP(Voice o
STN,Public
廉价的服务
over IP:IP 电
Switch Telep
,体现了 Vo
电话网)合一
电话)迅速发
phone Netwo
oIP 发展的服
一是下一代网
网络、有线电
电视网和公共
标[1],VoIP 是
息时代电话通信
中的重点目标
是三网合一之
因此,信息
信的前景将是
之后话务通信
是 VoIP 逐渐
能起到重要作
发展并进入技
ork)之势。一
服务驱动力;
网络(NGN,
信的必然途径
渐取代 PSTN,
作用并提供可
技术成熟期,
一方面,VoI
另一方面,
,Next Gener
径,体现了 V
,但由于 PS
可靠服务,所
大有挑
IP 能够
三网
ration
VoIP 发展
STN 现有
所以,
基础设施在当
前人们的日
常生活中仍能
长且任重道远
远的过程[7]。
的过渡将是一
码技术是 VoIP
备的核心器件
一个比较漫长
P 通信的关键
件之一,是进
键技术之一,
进行语音信号
协议标准进行
行介绍和对比
,并提出一种
承载实时音频
频信息流的基
基础。声
是 IP 网络承
号编解码的实
种基于 ARM
实体。本文将
M 处理器的声
将对语音编码
技术的
声码器构架设
设计思想。
波形编码
码与参数编
编码
语音编码技术
根据编码原
原理的不同,
术可以分为波
波形编码和参
参数编码。事
事实上,目前
前使用最
为普
普遍的编码方
方式叫做混合
合编码,即在波
波形编码的基
基础上进行参
参数编码,这
这种折衷的编
编码方式
能够
够兼得波形编
编码和参数编
编码各自的优
点——高语音
音质量和高压
压缩效率。
2.1.
波形编码
码
波形编码是
是能够忠实再
再现语音信号
时域波形的编
编码方式,其
其基本思想是
是在发送端对
对语音信
号进
进行抽样、量
量化、编码,
在接收端对接
得到原始语音
音。波形编码
码能够得
到较
较好的语音质
质量,不过其
其最低编码率
接收信号进行
只能达到 16
行数字解码得
6kbps。
‐ 1 ‐
中国科技论文在线
http://www.paper.edu.cn
在传统电话
是典
的量
典型的波形编
量化精度。PC
比较紧张的数
源比
编码
码技术应运而
话通信中使用
编码方式,PC
CM 编码能够
数据传输网络
而生。
技术的基本思
最为广泛的
CM 编码采用
够保证相当好
PCM(Pulse
用 64kbps 固定
好的话音质量
e Code Modu
定编码率,即
ulation:脉冲
即采用 8kHz 的
冲编码调制)
的抽样频率和
量,但其过高
的速率成为
了它应用于带
编码就
和 8bit
带宽资
络的技术瓶颈
。因此,诸如
如差分编码、
、自适应量化
化编码等低速
速率波形
差分编码技
思想在于编码过
过程不对抽样
样值本身进行
是对相邻的抽
抽样值之
间的
的差值进行编
编码,由于抽
样差值较小
,因此编码比
比特率得以降
行编码,而是
降低。
自适应量化
化编码是另一
一种比较典型
的低速率波形
形编码技术,
其基本思想
想是通过对小
小信号采
用较
较小量化步长
长以保证其量
量化精度、对
大信号采用较
较大量化步长
长以减少冗余
比特率,
自适
适应量化编码
码要求系统能
能够根据输入信
信号的幅度变
变化动态地调
调整量化步长
余从而降低比
长。
2.2.
参数编码
码
波形编码能
也很
很难将编码率
求是
是不合适的。
能够提供较好
率降至 16kbps
参数编码技
好的语音质量
s 以下,在信
技术能够较大
,但其编码
比特率过高,
低速率波形编
编码技术,
信息共享、带
带宽资源弥足
网络,这样的
幅度地降低编
编码率,使话
行于共享网络
,即使采用低
足珍贵的 IP 网
话务信息畅行
参数编码的
的基本思想是
是根据声音的形
形成原理构造
造编解码模型
型,在发送端
端利用编码模
入的
的语音信号提
提取一组参数
数并进行参数传
传输,在接收
收端利用解码
码模型和接收
收到的参数数
数据还原
语音
音信号。由于
于传输过程中
传递的是语音
音信号经编码
码模型提取的
的参数信息,
而不是语音
音波形本
身,
因此参数编
编码技术能够
够大幅降低编码
码率。参数编
编码技术能够
够达到的语音
音信号比特率
率一般都
小于
于 8kbps。
鉴于编码比
比特率低的特
特点,参数编码
型的构建源于
于声音形
成的
的原理,因此
此参数编码器
器又被称作为
根据人类发
发声的原理,
参数编码技术
码又俗称压缩
声码器(Vo
术构造的语音
缩编码。由于
oice-coder 或
音编码模型如
于编解码模型
Vocoder)。
如图 1 所示。
的带宽要
络。
模型和输
图 1 参数编码模
图
Fig. 1
Parameter Cod
声源发出的声
声源和声带,
模型原理
der Diagram
声音经过声带
人类的发声
声器官包括声
带将得到不同
同的频率响应
应,从而
形成
成不同的音节
节和音素。图
冲”和“白噪
噪声”分别模
模拟浊音和清
清音,“增益
益”模拟
音量
征浊
量大小,三者
浊音/清音的二
声带变化的滤
征声
者构成人类的
“滤波器”模
模拟声带器官
官。语音信号
号经编码模型
型提取表
二进制开关参
参数、表征浊
浊音特点的基
基频参数、表
征音量大小的
的增益参数以
以及表
滤波器系数,
以上参数经
编码后传输至
至接收端,接
接收端将这些
些参数通过对
对应的参
1 中,“脉冲
声源器官;
‐ 2 ‐
中国科技论文在线
http://www.paper.edu.cn
数解
解码模型还原
原出语音信号
号。事实上参
数编码技术利
发声过程中声
声源变化的长
长时相关
的短时相关性
性降低了语音
编码的比特率
生在波形编码
码预处理之后
的,这就是所
利用了人类发
率[2]。
是建立在 PCM
所谓的混合编
M 编码基础上
编码技术。
现过程中,语
语音信号的压
压缩处理都是
上的,也就是
是说,参
性和
和声带变化的
VoIP 的实现
编码都是发生
数编
3.
语音压缩
缩编码标准
准的对比
国际电信联
29、和 G.723
能指标如表 1
联盟定义了一
3.1,这些同
所示。
G.72
性能
一系列语音编
在电话通信领
领域,使用最
最为广泛的有
样也是我国
统所采用的主
要编码标准
。语音编码标
编码标准,在
IP 电话系统
有:G.711、
标准的
的性能指标
表 1 语
语音编码标准的
in Codec Protoc
ormance of Mai
Table 1 Perfo
MO
OS
比特率(bps)
.3
4
.8
3
4
.0
64
6.3
8
cols
复杂度(MIPS
复
)
(ms)
时延
0.
125
37
7.5
1
15
1
25
30
是使用比较广
广泛的用于评
评价语音质量
量的计分方法
法,其中
“复杂度”
VoIP 领域,
指实现编解码
30MIPS 以上
上代表
码所需
“MOS”指平
语音质量很好
理器能力,以
码算法[1]。“时
见,参数编码
编码方式,G.
平均意见分,
好;0 分最低
以 MIPS(百万
时延”指编码
低,表示完全
万指令/秒)
码器的处理时
的语音质量评
729 相对于 G
评价明显低于
G.723.1 的较
全无法交流。
为单位,在
时延。
于波形编码,
但编码率远
远优于波形编
编码。另
较高语音质量
量和低处理延
时,是以高复
复杂度
码方式
形编码
数编码
数编码
编码
参数
波形
参数
标准
标
G.
711
723.1
G.7
G.
729
表 1 中,“
最高,表示语
定点 DSP 处理
复杂度编解码
由表 1 可见
同为参数编
5 分
的定
高复
代价获取的。
外,
为代
4.
4.1.
声码器构
声码器的
构架设计
的处理器内
核比较
由于声码器
器的作用是运
运行复杂度相对
对较高的参数
数编解码算法
法,因此对于
于处理器的运
运算能力
存在
在一定要求。
目前大多的
架。
其中,主控
的 VoIP 设备,
控处理器负责
例如 IP 电话
责整个设备运行
话、媒体网关
行状况的监控
处理
理器负责执行
理器,现在 D
G.729 的参数
于语音信号的
处理
或 G
用于
行声码器的功
DSP 处理器的
数编码算法是
的模数转换及
将主控处理
理器和运算处
使用
用的方案。典
协处
处理器,以及
典型的例子是
及 USB、UAR
功能,即语音信
信号的压缩编
的运算速度一
一般都可以到
完全没有问题
及 PCM 码流输
处理器集成到一
是 Palmmicro 公
RT 等外围接
题的。当然,
输出,即实现
一块 SoC(S
公司的 PA16
接口,被广泛应
理器的构
机;运算
的 DSP
G.723.1
编码器,
控,可选择成
关,都是基于
于主控处理器
器与运算处理
成本较低的 C
CISC 单片机
所以选择运算
算能力较强的
S 以上,因此
此对于运行 G
一个 PCM 编
前必须配备一
,也是一种被
制器和 AD21
的设计中[4]。
预处理过程。
hip)芯片上
成了 8051 控制
P 相关设备的
编码过程,所
到达 100MIPS
,在 DSP 之前
现波形编码预
System on Ch
688,它集成
应用于 VoIP
被普遍
81 DSP
‐ 3 ‐
中国科技论文在线
http://www.paper.edu.cn
技术的高速发
发展及其处理
理器成本的不
控处理器甚至
至取代执行声
取代传统主控
ARM 的 SoC
处理器取代
方案已经被投
DSP 处理器进
投入到实际应
应用当中。
进行声码器设
设计,主要基
不断降低,A
声码器功能的
ARM 进入 Vo
的 DSP 处理器
oIP 领域是必
器是完全可行
必然的结
行的方案,
器完全能够胜
胜任语音压缩
缩编解码算法
的复杂度要求
例,处理
集成了硬件乘
器相对于 DSP
模块和外设接
乘法器,而处
P 处理器的控
接口,能够满
处理器运算能
能力已经能够
控制功能更强
强,也就是说
满足更为广泛
泛的应用需求
器的优势不在
在于它的高性
性能,而在于
它的低功耗
够在实现
基于以下考量
求。以 ARM
够接近于 130
说,在 ARM 内
求。
。因此 ARM
更少的产品功
量,
M7TDMI 为例
0MIPS。
内核周围能够
够集成
M 处理器能够
功耗。
21 世纪初,
甚至有超越
不断下降。
相对于 DSP 声
出一种基于 A
ARM 在
51 单片
声码器仍
ARM 处
在声码器架构
构设计
随着 ARM 技
使用 ARM
至部分基于 A
果。
甚至
1.
2.
3.
4.
采用 ARM 处
ARM 处理器
器内部已经集
ARM 处理器
更多的功能模
ARM 处理器
设备功能及性
ARM 处理器
32 位 RISC 处
机成为整个处
性能的条件下
下,能够提供
供更小的芯片
片面积以及更
器的低成本也
也是设计商在
处理器的市场
场占有率已经
处理器市场龙
龙头老大之势
在芯片选型上
经超过了 75%
势,随之相伴
,但基于 AR
dspeed 公司的
必须考虑的要
%,在未来几
伴的就是处理
RM 的声码器
的 M82172 芯
要素。早在
几年内 ARM
理器成本的不
器设计方案相
芯片为例提出
尽管得到了
了大量关注甚
是一
一个新生事物
物,本文接下
理器
器的声码器架
架构设计思想
甚至投入实用
下来将以 Mind
想。
4.2.
基于 AR
Mindspeed 公
RM 处理器的
公司的 M821
所示。
中的
的应用如图 2
的声码器构
172 是一款集
构架设计
集成了 ARM1
11 双核的 So
oC 芯片,它
的声码器设计
图 2 基
Fig. 2 Des
M11 的内核,
操作系统并监控
基于 M82172 的
ign Diagram ba
一个叫做 C
控整个设备的
2
ased on M8217
CSP(Control
l Signal Proce
一个叫做 M
的工作情况;
要包括语音压
实时处理,主
essing),即
MSP(Media
压缩编解码算
即控制信
a Stream
算法的
即媒体流处理
理器,负责语
语音分组的实
M82172 包含
处理器,负责
cessing),即
号处
Proc
含两个 ARM
责运行设备操
‐ 4 ‐
中国科技论文在线
http://www.paper.edu.cn
频率都为 450
0MHz,且均
均为哈佛结构
,拥有各自的
的一级、二级
级数据
运行
和程
行。CSP 和 M
程序高速缓存
M82172 的片
用 S
此外
PCM
(A
器能
SILICON LA
外还提供馈电
M 码流通过时
Advanced Peri
能够通过 SPI
上。系统启动
2172 外扩总线
VoIP 设备要
M11 较强的运
功能外,还负
ARM
码功
线上
M82
MSP 的工作频
存。
片内 MSP 处
ABS 公司的 S
电控制、过压
时分复用总线
iphery Bus)
总线接口对
动代码及硬件
线接口上的 F
要求将模拟语
运算处理能力
负责将压缩编
式的
的数据包,然
较之
之连接外设的
系统,例如 μ
P 收到 RTP 数
网控制器进行
作系
CSP
太网
然后通过片内
的 APB 总线具
Clinux 嵌入式
数据包后可以
决方
用 R
意到
以使
方案除了实现
由图 2 可见
RS232 串口调
到,CSP 和 M
使用级联的方
M82172 只需
时钟的要求降
个时
题。
借助于 ARM
有利
利于家用袖珍
以 M82172
为广泛的关注
行二层处理,
现了系统监控
见,M82172 片
调试的途径,
MSP 都有各自
方法将两个 JT
需外接一个 2
降低了系统设
M 处理器的
珍设备或便携
为代表,AR
注和应用。
处理器和片外
SI3226 芯片,
压保护等媒体
线到达 M8217
总线将信号送
SI3226 进行
件驱动程序、操
Flash 存储器
语音信号最终
力,在 M821
编码后的语音包
的 AHB(A
具有更高的传
式操作系统,
以直接进行 T
最后通过 M
控、声码器构
片上还集成了
PCI 接口可
自的 JTAG 接
TAG 接口串连
24M 的晶体振
设计的复杂度
低功耗特点
携式设备的设计
RM 处理器及
更为
5.
结束语
本文介绍了
PCM 编码器
该芯片主要
器构成了声码
码器的设计构
要负责模拟语
语音信号的模
网关或数字交
72 的 TDM 接
送至 MSP 进
行配置和监控
交换机必需的
接口,TDM 接
进行压缩编码
控,SPI 接口模
码、语音压缩
操作系统代码
的用户线功能
接口模块通过
码,另外,M8
模块同样挂接
缩编码算法代
编码器选
CM 编码,
输出的
构架。PCM 编
模数转换及 PC
能。SI3226 输
过片内 APB
82172 的 CS
接在片内的 A
代码都存储与
P 处理
APB 总
与挂接在
器中。
终转换为 TCP
72 的应用中
包添加实时信
Advanced Hig
传输速率,其
TCP/IP 协议
TCP/IP 处理,
MII\GMII\RGM
建的设计目的
P/IP 数据包的
中,MSP 除了
信息,封装成
h-speed Bus)
其工作频率高
的形式在共享
了实现 G.729
成 RTP(Rea
)总线传送至
高达 165MHz。
封装在嵌入式
议栈通常被封
生成 IP 数据
MII 接口输出
的外,还完成
了丰富的外设
设功能模块,
以用来挂接外
外部存储卡,
输。鉴于
的压缩编
ocol)形
HB 总线
设备操
中,因此
片内的以
享网络上传输
或 G.723.1 的
al Time Proto
至 CSP,AH
。CSP 运行设
式操作系统中
予 M82172 片
ARM 双核的应
组的整个处理
T 接口模块提
配置或故障信
应用结
理过程。
提供了使
信息。注
接口模块,两
两个处理器可
测试或调试,
,也可
据分组后交予
出。因此,A
成了网络分组
例如 UART
用来记录配
以分别进行测
一调试。
C 的系统时钟
容易产生的复
最大功耗可以
系统进行统一
驱动整个 SoC
多时钟信号容
整个 SoC 的最
连起来,对系
振荡器即可驱
,且避免了多
,M82172 整
计开发。
对于单
钟,M82172
复杂的电磁兼
以被限制在 2
兼容性问
2W 之内,
及其 SoC 解决
决方案将在声
声码器和 VoIP
P 设备设计领
领域得到
了作为 VoIP 关
技术,本文重
关键技术之一
一的语音编解
解码技术。波
大语
语音编解码技
重点阐述了这
两类技术的特
特点与原理。
前使
般都
完全
使用最为广泛
都是基于 805
全基于 ARM 处
的设计参考方
式的
方向。
泛的语音编解
1 控制器与 D
处理器的声码
解码标准,本文
DSP 算法处理
码器设计构架
理器的组合,
架,提供了声
文对它们的特
特点进行了罗
本文以 AR
声码器及 VoI
波形编码和参
。G.711、G.
罗列和对比。
RM 双核 SoC
IP 相关设备一
参数编码是 V
729 和 G.723
传统声码器
C 应用为例,
一种不同于传
oIP 的两
3.1 是目
器设计一
提出了
传统方
‐ 5 ‐
中国科技论文在线
http://www.paper.edu.cn
本文旨在为
领域的技术人
人员提供语音
音编解码技术
术相关的理论
论及设计参考
,望有
为涉足 VoIP 领
正与批评。
之士不吝指正
识之
献
参考文献
[1] 王
王瑞刚,李燕,
桂海源,IP 电话
[2] 桂
[3] 于
于红岩,吴选勇
[4] 黄
黄学达,王典洪
[5] 朱
朱海毅,周春楠
[6] 罗
罗英军,曾嵘,
3
12~1
onathan David
[7] Jo
187~
~228
Lin Cai, Jon W.
[8] L
Shifta Ansari, K
[9] S
national Journa
Intern
Ke Liu, Zhich
[10]
Scien
nce and Techno
IP 电话终端设
话技术与软交换
勇,IP 电话的 V
洪,陈分雄,基
楠,VOIP 基本
一种基于 TM
设备——原理、
换,北京,北京
VoIP 语音网关
基于 PA1688 的
原理,信息技
MS320C5409D
电路及应用,
京邮电大学出版
关设计,应用天
的 VOIP 语音网
技术,2003(5)
DSP 系统的多速
西安,西安电
版社,2004,1
天地,2005(6)
关技术,电子
),83~84
速率声码器设计
电子科技大学出
1~181
),64~67
子器件,2005,
出版社,2003,
,49~144
28(1),184
4~187
计,现代电子技
技术,2007,3
30(6),
son, Voice Ove
er IP Fundame
entals, Second E
Edition, Beijin
g, Posts & Tel
lecom Press, 20
009, 1~33,
Mark, VoIP ov
Kashif Nizam K
al of Computer
hun Mu, Zhong
ology Beijing, 2
ver WLAN, Inte
Khan, Jinat Reh
Science and Ne
g Wang, High
2001, 8(3), 229~
ernational Journ
hana, Different
etwork Security
Performance S
~233
nal of Commun
Approaches o
y, 2009, 9(3), 23
Speech Compre
nication System
f interworking
32~239
ession System,
ms, 2006(19), 49
between SIP a
91~508
and H.323,
Journal of Un
niversity of
V
oIP Cod
dec Tech
Voice
hnology R
-coder b
Research
based on
h and Ar
ARM P
rchitectu
ure Desig
Processor
r
gn of
Shangh
hai Jiao Tong
g University,
ment, Shangha
ai (200030)
Guojun
Qiao
onics Departm
Microelectro
t
Abstract
hnologies in V
mportant tech
e Codec Techn
network. Voice
Codec, and G
.711, G.729, G
ocoder is the d
ce-coder or vo
gn is mostly ba
vocoder desig
nd low power
ce, low cost an
d direction of v
vocoder desig
VoIP field, and
nology can be
G.723.1 codec
device which p
ased on specif
consumption
gn.
d it is the basic
e divided into
c protocols est
plays code
fic DSP chip.
of ARM proc
c stuff for
tablished
cessor,
Voic
real-
categ
by IT
comp
Cons
repla
Keyw
ce Codec Tech
-time voice inf
gories: Wavef
TU are in com
pression of vo
sidering such
acing DSP wit
words: VoIP;
hnology is one
formation to s
form Codec an
mmon usage no
oice signal, an
feature as hig
th ARM becom
Codec; Voice
e of the most i
spread on IP n
nd Parameter C
owadays. Voic
nd traditional v
gh performanc
mes a referred
e-coder
‐ 6 ‐