第一章
语音信号的时域及频域特征
1. 语音信号的主要特点
1.1. 语音信号带宽
语音信号的带宽约为 5KHz ,主要能量集中在低频段。
1.2. 语音信号是典型的随机信号
1)人的每次发音过程都是一个随机过程。很难得到两次完全相同的发音样本。
2)在信号处理中,通常假设语音信号是短时平稳的。例如,可以认为在语音的浊
音段部分,语音的二阶矩统计量是平稳的(在 5~10mS 内),即二阶矩平稳,或称为宽平
稳。
1
2. 语音信号的时域波形
图 1. 语音信号的波形(shi4)
2
图 2. 语音信号波形(shi4)的局部细节
3
2.1. 语音时域信号特征
2.1.1. 语音时域信号的特点
1)清音段:能量低,过零率高,波形特点有点像随机的噪声。这部分信号常与语
音的辅音段对应。
2)浊音段:能量高,过零率低,波形具有周期性特点。所谓的短时平稳性质就是
处于这个语音浊音(元音)段中。
3)过渡段:一般是指从辅音段向元音段信号变化之间的部分。信号变化快,是语
音信号处理中最复杂、困难的部分。
4
(1)
(2)
(3)
2.1.2. 语音的短时能量、短时平均幅度和短时过零率
(1)短时能量:
E
1
N
n
0
2
)(
ns
(2)短时平均幅度:
M
(3)短时过零率:
1
N
n
0
)(
ns
Z
1
N
1
2
0
n
sgn[
(
ns
)]
sgn[
(
ns
)]1
其中
sgn[
n
]
1
1
x
x
0
0
5
3. 语音信号的短时谱特征
3.1. 短时傅立叶谱分析
对于能量受限的时域信号 )(t
f ,它的傅立叶变换可以写成
(ˆ
f
)
f
t
)(
e
t
j
dt
(4)
以上这个傅立叶变换,在“宏观上”给出信号 )(t
f 的频谱信息,但是却无法确定某个“局
部”时间段频谱的确切信息。在语音信号中,信息是按照特定的时间序列方式出现的。
如果谱分析不能确定这种时间序列的次序(即位置),那么这种信号分析的手段在应用
上就会受到限制。同时我们也希望能够通过观测到的局部时域信号的频谱信息来了解
(构造)整个 )(t
f 的频谱信息。为此我们引入了所谓的短时傅立叶谱分析技术。
有许多技术都可以用来完成信号的短时谱分析。最典型的就是小波变换和我们现在
常采用的傅立叶短时谱分析技术。
6
傅立叶短时谱分析与窗的形状和位置有关(与时刻有关)。假设窗函数为 )(tw ,那
么信号 )(t
f 的短时傅立叶变换为
(ˆ
f
w
|)
t
0
f
twt
(
)(
t
)
e
0
j
t
dt
(5)
例如,如果选择窗的形式为一个高斯函数
tw
)(
1
a
2
e
性质:
(
tw
t
)
dt
0
0
)(
tw
dt
1
2
t
4
a
,这个窗函数有如下
所以有
(ˆ
f
w
|)
t
dt
0
0
f
et
)(
t
j
f
)(
twt
(
t
)
e
0
t
j
dt
dt
0
(6)
tw
(
t
)
dt
0
0
dt
(ˆ
)
f
这说明
(ˆf
)
可以被加窗后的短时谱
(ˆ
wf 所精确地分解。这正是我们所希望的性
|)
t
0
7