NCMMSC’2009,8 月 14-16 日,新疆乌鲁木齐
回声隐藏技术中回声核研究综述
李莉 1,宋亚奇 1
(1. 华北电力大学计算机系)
文 摘: 回声核构造是回声隐藏算法中关键因素,直接影响到嵌入的不可察觉性、检测正确率、鲁棒性、提取嵌入信
息的安全性以及执行效率。首先对回声隐藏技术的最初设想、心理声学原理及最基本的回声隐藏方法进行概述,在此
基础上总结了自回声隐藏算法首次提出 10 多年来国内外对回声隐藏的研究进展情况,主要对回声核的改造做了归纳,
同时对各种回声核结构进行了模拟仿真测试,以此对各方法的优缺点进行了分析和比较。最后对全文进行了总结,展
望了回声隐藏技术领域的研究热点与发展方向。
关键词:回声隐藏;回声核;回声核改进
中图分类号: TP309
人们通常认为在通信中将消息加密就可以保
证安全,然而实际中这还远远不够,战术家们更热
衷于将加密的消息进一步隐藏起来,这样可以避免
由密文带来更多的猜疑,将秘密隐藏在不知不觉
中。因此通信安全的研究不仅包括密码术,还包括
以隐藏信息为主的传输安全,也就是信息隐藏技
术。随着数字媒体处理技术的发展和网络通信的普
及,数字媒体广泛传播的同时也暴露出诸多安全问
题。例如多媒体作品的版权侵犯、软件或文档的非
法拷贝、电子商务中的非法篡改、复制和盗版现象
非常普遍等。信息隐藏为解决这些安全问题提供了
一条技术途径。例如利用数字水印技术在音频载体
中嵌入水印信息,即可以实现拷贝限制、使用跟踪、
盗版确认等功能[1]。
Bender 提出将秘密信息变换为环境条件特征
值嵌入到音频载体[3],这里所指的环境条件特征值
类似于房间中墙、家具等物体对于音频信号产生的
共鸣。加入了环境条件特征值的音频比原始音频在
听觉上更丰富,类似于在现场的音乐欣赏,即音频
信号叠加上了由房间产生的回声。通过回声参数的
仔细筛选和比对,可使得回声隐藏的效果非常好。
利用回声实现的信息隐藏即在载体音频(明文)中加
入不同延时的回声,利用延时时间的不同来代表不
同的信息位(密文),从而实现信息的隐藏。在接收
端使用延时检测算法来提取密文。
高、可以盲检测等优点,因而成为目前基于音频的
信息隐藏领域的研究热点之一,也是本文讨论的重
点。
1 回声隐藏技术原理
基于图像的信息隐藏现已取得较多的研究成
果,而由于人类听觉系统(HAS)的特殊结构使人
耳具有对声音的频率分辨、音调识别、强度分辨和
时 间 延 迟 等听 觉 特 性 ,人 耳 的 听 觉频 率 范 围 是
20-20000Hz,正常人能察觉 1dB 的声音变化,3dB
的差异将感到明显不同,较之其他的感观系统人耳
更为敏锐,因此音频信号的信息隐藏面临更大的挑
战。但同时人类听觉系统又受到掩蔽效应、优先效
应的影响,这为信息的隐藏提供了可乘之机。音频
中隐藏信息最简单的方法是将秘密信息作为“噪
声”引入,但这个方法致命的弱点是有损压缩算法
会将大部分的不可感知的部分删除,包括典型的低
分贝噪声。1996 年 Bender 等人最早提出了回声隐
藏的方案[3],将秘密信息变换为环境条件特征值嵌
入到音频信号,也就是回声,这样针对多数的压缩
数据算法都表现出良好的鲁棒性,而且具有算法实
现简单、不产生噪声、隐藏效果好、对同步要求不
从人耳听觉系统特性上看,基于回声的信息隐
藏技术利用了人耳听觉系统对音频的时域掩蔽特
性来隐藏信息。一个较弱的声音(被掩蔽音)的听
觉感受被另一个较强的声音(掩蔽音)影响的现象
称为人耳的“掩蔽效应”。掩蔽的类型分为频域掩
蔽和时域掩蔽。频域掩蔽是指掩蔽声与被掩蔽声同
时作用时发生掩蔽效应,又称为同时掩蔽。时域掩
蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时
出现时,又称为异时掩蔽。异时掩蔽又分为导前掩
蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内
发生掩蔽效应,则为导前掩蔽;否则称为滞后掩蔽。
产生时域掩蔽的主要原因是人的大脑处理信息需
要花费一定的时间,异时掩蔽也随着时间的推移很
快会衰减,是一种弱掩蔽效应。一般情况下,导前
掩 蔽 只 有 3ms-20ms , 而 滞 后 掩 蔽 却 可 以 持 续
331
50ms-100ms。
ny
][
][nx
][ny 和
Bender 等人根据回声的物理原理,利用人耳听
觉系统受滞后掩蔽的特性,提出了最基本的回声隐
藏方法[3]:
=
nx
][
+
α
dnx
[
−
]
(1)
和原始载体音频信号,d 为回声延迟时间,
分别表示嵌入回声后的载密音频
α为回
时,表示嵌入“1”;
d =
1d
声衰减系数。其中当
d =
0d
时,表示嵌入“0”。嵌入过程的第一步是利
用载体音频信号分别生成“1”回声信号
“0”回声信号
one
zero
zero
][x
;然后根据需要将
][x
][x
和
在时间上同步划分为若干包含相
one
][x
][nx
和
、
将与
将与
][x
][x
one
one
做卷积运算,
][nx
][nx
同样本点数的片段;接着生成两个信号混合器,
“0”信号混合器表示
“1”信号混合器表示
做卷积运算;
最后载体音频信号,依据秘密信息的二进制位,进
入不同的信号混合器,与不同的混合信号卷积得到
最终的嵌入回声后的载密音频。这里“0”信号混
合器与“1”信号混合器的和永远为 1,因此不同比
特的嵌入将平滑过渡,防止了最终混合信号的急剧
变化[3]。
嵌入信息的提取主要是确定载密音频信号中
回声的延时位置,根据回声延时的不同,判断当前
音频片段中嵌入的是“1”或者“0”。Bender 提出
了利用信号倒谱的自相关函数[3],若 秒的倒谱自
1d
0d
相关函数值大于 秒的值,则判断当前嵌入的是
“1”,反之为“0”。
最基本的回声隐藏算法具有实现简单、基本不
产生噪声,隐藏效果较好、对同步要求不高、可以
盲检测等优点,表现出较好地实用前景,因此一出
现就得到了广泛的专注。我们利用 Matlab 对原始回
声核进行了模拟,以采样频率 8kHz,量化精度 16bit
的 WAV 格式语言音频为测试样例,取分段长度为
0.1s,回声衰减系数
时,考察了不同的回声
延迟对原始回声核的恢复正确率的影响,如图 1 所
示,可以看出选择适当的参数,原始回声核的恢复
正确率也能达到 100%的效果。由于原始回声核受
参数选择影响较大,在此基础上很多研究人员从提
高其检测正确率、克服特殊音频片段易产生噪声、
抵抗常见信号处理攻击、提高提取回声权限要求等
角度对回声核进行了研究和改进。
4.0=α
图 1 原始回声核的恢复正确率与延迟时间关系图
2 回声核改进发展分析
回声核的改造是改进回声隐藏技术最直接的
方法,在原始回声核的基础上,先后出现了时扩回
声核、双极性回声核、前向-后向回声核、双向对称
时扩回声核、镜像回声核、抑制双向时扩回声核和
基于内容的改进时扩回声核等新型回声核,分别在
提高不可察觉性,检测正确率,抵抗常见信号处理
攻击,以及提取嵌入信息的安全性等方面取得了较
好的效果。
2.1 时扩回声核
在原始回声核基础上,Byeong-Seob KO 考虑声
音在一个真实的房间中产生回声的情况,由于房间
的每个物体都会共振产生回声,因此载体音频信号
应该是与多个回声信号共存的。他利用伪随机序列
在时域上将回声进行散布,同时这个伪随机序列还
可以作为提取秘密信息时的私钥,私钥的运用进一
步提高了检测回声的权限要求,增强了安全性。时
扩回声核表示为[4,5]:
⋅+
0,]
nk
][
<<
<
=
g
1
其中,
为振幅为 的伪随机序列,
n
][
δ
][np
[
dnpg
−
1±
][np
L
, 为
是单位脉冲函数,g 为
Lg ⋅=α
式(1)中的
够长,
α<
2.2 双极性回声核
Oh 基于心理声学的分析把人耳可感知的回声
分为两部分:echo 和 coloration。以 2 ms 为界,延
迟时间大于 2 ms 称为 echo,小于 2 ms 则称
coloration。前者由于引入的回声延迟时间过大,影
响听觉质量;后者听觉上可理解为对原始声音的赋
色。0h 研究了在赋色域嵌入不同极性和个数的回声
信号对原始声音所产生的影响。不同极性是针对衰
减系数α的符号而言的,若α为正数,则称回声为
正极性;若α为负数,则称回声为负极性。不同极
性和个数的回声信号的频率响应是不同的,由此将
原始回声核改造为双极性回声核[6]。
[
δα
nk
][
(3)
在音频信号中嵌入两个极性相反、不同延时的
回声,能够使得回声能量加倍,提高隐藏信息的检
测率,而不会降低载体音频的音质。
2.3 前向-后向回声核
[
δαδ
dn
1
dn
n
][
−
−
−
+
=
]
]
2
2
1
]
−
+
δ
[
dn
nk
][
其中,
Kim 利用了人耳听觉受导前掩蔽的影响,在简
单回声核和双极性回声核的基础上,提出了前向回
声核的概念,整合出一种新的回声核[7]:
dn
]
[
αδ
dn +δ
[
n
][
[
+
αδ
=
dn −δ
]
称为前
向回声。前向回声在载体音频信号产生前嵌入回
声,实际上此举违反了回声的定义,换句话说,前
向回声是来历不明的。但是人耳听觉系统受导前掩
蔽的影响,因此可以考虑适当增加前回声。选择同
样的参数,利用前向-后向回声核其检测阶段的倒谱
(4)
]
称为后向回声,
+
α
1 α
2
− ,而后向回声核的倒谱峰值为
峰值能达到
α。
经过仿真实验测试,利用前向-后向回声核对比
原始回声核和双极性回声核,在相同恢复正确率的
前提下,α可以取得更小值。这也证明特别是当前
向延时与后向延时相等时,前向-后向回声核的在检
测率和不可察觉性两方面性能明显优于简单回声
核和双极性回声核。
2.4 双向对称时扩回声核
介于虚拟的前向回声能有效地提高秘密信息
的检测效率,Chou 将前向回声与时扩回声核结合在
一起,提出了双向对称时扩回声核[8]:
dnp
[
nk
][
(5)
由于兼顾了时扩和双向回声的特点,新的回声
核在隐蔽性和检测效率上比传统的回声核有了较
大的改进。
⋅+
αδ
dnp
[
⋅+
α
n
][
+
−
=
]
]
我们采用 Chou 的实验参数进行了双向对称时
扩回声核的仿真实验,其中检测率随衰减系数变化
的曲线、检测率随伪随机序列长度变化的曲线与单
向时扩回声核的比较都证明了双向对称时扩回声
核优于以前的回声核设计。
2.5 抑制双向时扩回声核
Chou 在自己提出的双向对称时扩回声核的基
础上,进一步考察心理声学模型的掩蔽效应,根据
回声的指数式衰减和导前掩蔽比滞后掩蔽衰减速
度更快的特点,对时扩回声核中回声进行成形处
理,使其衰减模型与心理声学模型更为匹配,并将
前向回声乘以一个抑制因子,以适应前向回声比后
向回声衰减更快的特性,最后得到抑制双向时扩回
声核[10]:
nk
][
δ
=
n
][
−−+
dnp
dnv
[
]
[
]
−
⋅
⋅
+
−
α
dnv
dnp
[
[
]
]
⋅
μα
−−
⋅
⋅
α为衰减系数,
(7)
][np
μ为抑制因子,d 为延迟时间。当
][nv
其中, 为成形函数,
为伪随机序列,
nv
1][
=
μ
=
,1
时,抑制双向时扩回声核退化为双
=
μ
,0
1][v
=
n
向对称时扩回声核;当
时,即为
时扩回声核。基于心理声学模型的抑制双向时扩回
声核更加充分地考虑了人耳听觉系统的特点。
0156
.0=α
仿真实验中,对双向对称时扩回声核添加了抑
,分别取μ= 0.4 和 1,
制因子,固定
结果证明增加了抑制因子后,在相同的恢复正确率
下,L 的取值更小,也就是说在衰减系数更小的情
况下,抑制双向时扩回声核能获得更高的检测率,
且隐蔽性更高。
2.6 基于内容的改进时扩回声核
Erfani 的研究着力于回声隐藏的安全性,从
Bender 提出的传统回声核开始,回声隐藏技术基本
上都是简单将水印比特当作回声嵌入原始音频信
号,整个过程没有使用密钥,因此检测水印的过程
也是任何人都可以利用倒谱分析找到峰值来确定
隐藏的水印信息。简单的水印嵌入过程和宽松的检
测水印过程,是回声隐藏应用上的一个优势,但是
从安全的角度来说,这并不符合安全性的要求,实
际应用中将会导致很多的安全漏洞。对于回声隐藏
安全上的考虑,最先出现在时扩回声核中,伪随机
序列作为密钥,能使得未经授权的人不能获取隐藏
的水印。Erfani 总结出时扩回声核仍然存在 2 个本
质上的安全问题。一个由于回声的延迟性,水印并
没有渗入整个原始音频信号;第二个是由于没有考
虑原始音频的特征,使得即使在没有攻击的情况
下 , 对 各 种音 频 信 号 的检 测 正 确 率仍 不 能 达 到
100% 。为解决这 2 个问题,Erfani 提出了一种基
于内容的改进时扩回声核[11]:
)
λαδ
⋅
nk
][
(8)
Erfani 的回声核与传统的回声核有较大的区
np
][
b
−⋅
n
][
+
=
(
333
别,首先水印的嵌入不再对应与回声的延迟时间,
}1,1{ −∈b
=
λ
⋅
而是利用一个符号位
来对应表示水印信
息中的“0”和“1”,进而使得水印信息渗透了整
个原始音频信号,提高了不可察觉性。其次充分考
虑了原始音频的特点,取:
][
npnc
][
x
(9)
将由原始音频信号在检测过程中带来的误差
转移到水印的嵌入过程中,使在没有攻击的情况
下,水印信息的检测正确率达到 100% 。
1
N
∑
N 1
n
=
仿真实验中,原始音频的λ值小于 0.01,我们
取α= 0.01,结果证明在没有攻击的情况下此回声
核可以达到 100%的恢复正确率。
当然,回声核的改进同时也带来了原始音频信
号品质的细微下降,这也是下一步需要研究的内
容,可参考利用综合分析法解决这个问题。
3 结论
回声隐藏从提出发展至今,一直是信息隐藏研
究领域的一个热点,回声隐藏可实用于语言的秘密
通讯、音频数字水印和音频注释等领域。回声核的
改造至今已出现了多种变形,例如时扩回声核、双
极性回声核、前向-后向回声核、双向对称时扩回声
核、镜像回声核、抑制双向时扩回声核和基于内容
的改进时扩回声核等新的回声核,从不同角度对提
高回声的检测的正确性和安全性、抵抗信号处理攻
击及增强不可察觉性等目标进行了努力,也获得了
不同程度的优化结果。本文从回声核改造对回声隐
藏技术的历史和现状进行了分析讨论,同时利用
Matlab 对各种回声核模型进行了仿真测试,总结比
较各种改进的方法的优缺点。
对回声隐藏的发展研究除了回声核的改进外,
自适应衰减系数选择、提取方案的改进、针对回声
隐藏特点的攻击、回声隐藏容量的提升,和跳频技
术等新理论的应用都是目前人们关注的焦点,也是
本文下一步工作的方向。
参 考 文 献
[1] F. L. Bauer. Decrypted Secrets—Methods and Maxims of Cryptol-
ogy[M].Berlin, Heidelberg, Germany: Springer-Verlag, 1997.
[2] A. Tacticus. How to Survive Under Siege/Aineias the Tactician (Clar-
endon Ancient History Series). Oxford, U.K.: Clarendon, 1990, pp.
84–90, 183–193
[3] D. Gruhl and W. Bender. Echo hiding[C]. in Proc. Information Hid-
ingWorkshop, Cambridge, U.K., 1996, pp. 295–315.
[4] B.-S. Ko, R. Nishimura, and Y. Suzuki. Time-spread echo method for
digital audio watermarking using PN sequences[C]. Proc. ICASSP
2002, May 2002.
[5] B.-S. Ko, R. Nishimura, and Y. Suzuki. Time-spread echo method for
digital audio watermarking[C]. IEEE Trans. on Multimedia, vol. 7, no.
2, pp. 212-221, 2005.
[6] H. 0. Oh, J. W. Seok, J. W. Hong, and D. H. Youn. New echo embed-
ding technique for robust and imperceptible audio watermarking[C].
Proc. of IEEE Int. conf Acoustic, speech, and Signal Processing, vol. 3,
pp. 1341-1344, 2001.
[7] H. J. Kim and Y. H. Choi. A novel echo-hiding scheme with backward
and forward kernels[J]. IEEE Trans. on Circuit and System for Video
Technology, vol. 13, no. 8, pp. 885-889, Aug.2003.
[8] S. A. Chou, Shih-Fu Hsieh. An Echo-hiding Watermarking Technique
Based on Bilateral Symmetric Time Spread Kernel[C]. Proc.
ICASSP'06, vol. 3, pp.1100-1103, 2006.
[9] Wen-chih Wu, Oscal T. -C. Chen. Analysis-by-synthesis Echo Hiding
Scheme Using Mirrored Kernels[C]. Proc.ICASSP'06, vol. 2, pp.
325-328, 2006.
[10] Shuang-An Chou,Shih-Fu Hsieh,Ko-Chiang Li . A Temporal Masking
Technique And Its Performace Analysis For Audio Watermark-
ing[C]. IEEE Intl Conf on Multimedia & Expo,pp.1774-1777,July
2007.
[11] Yousof Erfani, Mehdi Parviz, Shirin Ghanbari. Improved time spread
echo hiding method for robust and transparent audio watermarking[J].
Signal Processing and Communications Applications, pp. 1 – 4, June
2007.
[12] S. W. Foo, T. H. Yeo, and D. Y. Huang,An adaptive audio watermarking
system[C], in Proc. IEEE Int. Conf. Elect. Electron. Technol.,2001, vol.
2, pp. 509–513.
[13] W. C. Wu, 0. T.-C Chen and Y. H. Wang, An echo
watermarking
analysis-by-synthesis ap-
proach[C], Proc. offhe SIh IASTED Inr. Conf on Signal and
Image Processing, pp. 365-369, Aug. 2003.
method
using
an
[14] W. C. Wu and O. T.-C. Chen,An Analysis-by-Synthesis Echo Water-
marking Method[C], Proc. of IEEE Int. Conf. on Multimedia and Expo,
June 2004.
[15] WANG Huiqian, XIU Keshan, YAO Zhonghan. Spread Echo Hiding
Algorithm Based on Neural Network[J]. Computer Engineering,
Vol:32,no.15, pp.31-33,2006
[16] Huiqin Wang, Ryouichi Nishimura, Yoiti Suzuki, Li Mao. Fuzzy
self-adaptive digital audio watermarking based on time-spread echo
hiding[J]. Journal: Applied Acoustics - Kidlington, Vol: 69,no.10,2008
[17] Yousof Erfani, M. Shahram Moin, Mehdi Parviz. New Methods for
Transparent and Accurate Echo Hiding By Using the Original Audio
Cepstral Content[C]. ACIS-ICIS 2007: 1087-1092
334