《多媒体技术基础》第 3 版
练习与思考题参考答案
林福宗
清华大学计算机科学与技术系
2008-2-15
linfz@mail.tsinghua.edu.cn
第1章 多媒体技术概要
1.1 多媒体是什么?
多媒体是融合两种或者两种以上媒体的一种人-机交互式信息交流和传播媒体。使用的
媒体包括文字、图形、图像、声音、动画和视像(video)。
1.2 超链接是什么?
超链接(hyper link)是两个对象或元素之间的定向逻辑链接,是一个对象指向另一个对象
的指针。建立互相链接的这些对象不受空间位置的限制,可在同一个文件、在不同的文件或
在世界上任何一台连网计算机上。
1.3 超文本是什么?
超文本是包含指向其他文档或文档元素的指针的电子文档。与传统的文本文件相比,它
们之间的主要差别是,传统文本是以线性方式组织的,而超文本是以非线性方式组织的。这
种文本的组织方式与人们的思维方式和工作方式比较接近。
1.4 无损压缩是什么?
无损压缩是用压缩后的数据进行重构(也称还原或解压缩),重构后的数据与原来的数据
完全相同的数据压缩技术。
无损压缩用于要求重构的数据与原始数据完全一致的应用,如磁盘文件压缩就是一个应
用实例。根据当前的技术水平,无损压缩算法可把普通文件的数据压缩到原来的 1/2~1/4。
常用的无损压缩算法包括哈夫曼编码和LZW等算法。
1.5 有损压缩是什么?
有损压缩是用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响
人对原始资料表达的信息造成误解的数据压缩技术。
有损压缩适用于重构数据不一定非要和原始数据完全相同的应用。例如,图像、视像和
声音数据就可采用有损压缩,因为它们包含的数据往往多于我们的视觉系统和听觉系统所能
感受的信息,丢掉一些数据而不至于对图像、视像或声音所表达的意思产生误解。
1.6 SGML是什么语言?SGML语言的精华是什么?HTML是什么语言?HTML语言与SGML
语言是什么关系?
1
(1) 1986 年国际标准化组织(ISO)采用的信息管理标准。该标准定义独立于平台和应用的
文本文档的格式、索引和链接信息,为用户提供一种类似于语法的机制,用来定义文档的结
构和指示文档结构的标签。
(2) SGML的精华是把文档的内容与样式分开处理。
(3) HTML是用来创建超文本文档的标记语言,也是创建Web网页用的标记语言。
(4) HTML是SGML的一个子集。
1.7 有人认为“因特网就是万维网”,这种看法对不对?为什么?
(1) 不对。
(2) 因特网是专指全球范围内最大的、由众多网络相互连接而成的、基于TCP/IP协议的
计算机网络;万维网是指分布在全世界所有HTTP服务器上互相连接的超媒体文档的集合。
1.8 组成万维网的 4 个核心部分是什么?
(1) 超文本传输协议(HTTP);
(2) 文档格式标准,包括HTML,XML,XHTML;
(3) 执行HTTP协议的Web浏览器;
(4) 执行HTTP协议的Web服务器。
1.9 H.261~H.264 和G.711~G.731 是哪个组织制定的标准?
国际电信联盟(ITU)。
1.10 MPEG-1,MPEG-2 和MPEG-4 是哪个组织制定的标准?
ISO/IEC,即国际标准化组织(ISO)/ 国际电工技术委员会(IEC)。
1.11 因特网标准是哪个组织制定的标准?
因特网标准是ISOC(因特网协会或称互联网协会)协调的 4 个组制定的。
ISOC负责协调的 4 个组:(1) 因特网工程特别工作组(IETF);(2) 因特网体系结构研究
部(IAB):(3) 因特网工程指导组(IESG);(4) 因特网研究特别工作组(IRTF)。
1.12 HTML和XML语言是哪个组织制定的标准?
万维网协会(World Wide Web Consortium, W3C)。
1.13 阐述你对数据、内容、信息、知识和智慧的理解。
(1) 数据(data)是以数字、字符或图像等可读语言或其他记录方法表示的事实、概念或指
令,适用于人或自动装置进行通信、解释或处理。数据本身没有意义,通常需要在一定的语
义环境中才有意义
(2) 内容(content)是对数据的描述,
(3) 信息(information)是对内容的解释,信息是数据的含义。
(4) 知识(knowledge)是在某个感兴趣领域中的事实、概念和关系。
(5) 智慧(wisdom)是知识累积后产生的洞察力、判断力和发明创造能力。
2
第2章 无损数据压缩
2.1 假设{ ,
a b c
, }
作单位)。
H0
,255
n
∑
i
是由 3 个事件组成的集合,计算该集合的决策量。(分别用Sh,Nat和Hart
= (log23) Sh
= (loge3) Nat
= (log103) Hart
= 1.580 Sh
= 1.098 Nat
= 0.477 Hart
2.2 现有一幅用 256 级灰度表示的图像,如果每级灰度出现的概率均为
ip x =
(
) 1/ 256
,
i =
0,
,计算这幅图像数据的熵。
)
(
= −
)log
p x
(
i
p x
(
i
H X
1
256
也 就 是 每 级 灰 度 的 代 码 就 要 用 8 比 特 , 不 能 再 少 了 。
2.3 现有 8 个待编码的符号
1
256
256 (
×
log
= −
×
1
=
)
2
2
m 7
,
m
0,
)
=8 (位),
,它们的概率如练习_表 2-1 所示,计算这些符号的霍
夫曼码并填入表中。答案不唯一)。
待编码符号
0m
1m
2m
3m
4m
5m
6m
7m
概率
0.4
0.2
0.15
0.10
0.07
0.04
0.03
0.01
练习表 2-1
分配的代码
代码长度(比特数)
1
000
001
011
0101
01000
010010
010011
1
3
3
3
4
5
6
6
2.4 现有 5 个待编码的符号,它们的概率见练习表 2-2。计算该符号集的:(1) 熵;(2)霍夫
曼码;(3) 平均码长。
符号
概率
(1) 熵
H a
)
(
i
2a
0.4
练习表 2-2
3a
0.2
1a
0.2
4a
0.1
5a
0.1
n
)log
p a
(
i
= −∑
=0.4×1.3219+0.4×2.3219+0.2×3.3219=0.5288+-0.9288+0.6644=2.1220 (位)
(0.4)-2×0.2*
)
i =-0.4×
(0.2)-2×0.1
p a
(
log
log
log
(0.1)
1
=
2
2
2
2
i
(2) 编码树和霍夫曼码
3
0
1
P4(1.0)
P3(0.6)
0
P2(0.4)
1 0.2P( )
a( )
2 0.4
a( )
1 0.2
a( )
3 0.2
1
1
0
a( )
4 0.1
a( )
5 0.1
1
0
符号
2a
1a
3a
4a
5a
*代码分配不唯一
(3) 平均码长
练习图2-1 编码树
编码表
霍夫曼码*
码长
所需位数
0
11
101
1001
1000
1
2
3
4
4
0.4
0.4
0.6
0.4
0.4
概率
0.4
0.2
0.2
0.1
0.1
L = 0.4+0.4+0.6+0.4+.04=2.2(位/符号)
2.5 使用算术编码生成字符串games的代码。字符g, a, m, e, s的概率见练习表 2-3。
符号
概率
1.0
0.6
0.4
0.2
0.1
0.0
g
a
m
e
s
g
0.4
1.0
a
练习表 2-3
a
0.2
m
0.2
0.792
0.84
m
e
0.1
0.7792
s
0.1
0.77776
e
0.6
0.76
0.776
练习图2-2 games的算术码
s
0.7776
0.7776
2.6 字符流的输入如练习表 2-4 所示,使用LZW算法计算输出的码字流。如果对本章介绍的
LZW算法不打算改进,并按表 2-17 所示步骤计算,请核对计算的输出码字流为:
(1) (2) (4) (3) (5) (8) (1) (10) (11) …。
输入位置
1
2 3 4 5
6
7
练习表 2-4
8
9 10 11 12 13 14 15 16 17 …
4
输入字符流 a
输出码字
a
b
b
a b
c
- ab c
b
-
a
ba
b
a
b
a
bab a
a
-
a
aa
a
-
a
a
- aaa
a …
步骤 位置
词典
输出码字
练习表 2-5
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
…
a
b
c
ab
ba
abc
cb
bab
baba
aa
aaa
aaa
…
(1)
(2)
(4)
(3)
(5)
(8)
(1)
(10)
(11)
…
1
1
2
2
4
3
5
4
7
5
10
6
11
7
13
8
9
16
… …
2.7 LZ78 算法和LZ77 算法的差别在哪里?
(1) LZ77 编码算法的核心是查找从前向缓冲存储器开始的最长的匹配串(2.4.2 LZ77 算
法)。
(2) LZ78 的编码思想是不断地从字符流中提取新的缀-符串(String),通俗地理解为新“词
条”,然后用“代号”也就是码字(Code word)表示这个“词条”。这样一来,对字符流的
编码就变成了用码字(Code word)去替换字符流(Charstream),生成码字流(Codestream),从而
达到压缩数据的目的。(2.4.4 LZ78 算法)
2.8 LZSS算法和LZ77 算法的核心思想是什么?它们之间有什么差别?
(1) LZSS通过输出真实字符解决了在窗口中出现没有匹配串的问题,但这个解决方案包
含有冗余信息。(2.4.3 LZSS算法)
(2) LZ77 编码算法的核心是查找从前向缓冲存储器开始的最长匹配串(2.4.2 LZ77 算法)
2.9 LZW算法和LZ78 算法的核心思想是什么?它们之间有什么差别?
(1) LZW算法和LZ78 算法的核心思想都是不断地从字符流中提取新的缀-符串(String),
通俗地理解为新“词条”,然后用“代号”也就是码字(Code word)表示这个“词条”。这
样一来,对字符流的编码就变成了用码字(Code word)去替换字符流(Charstream),生成码字
流(Codestream),从而达到压缩数据的目的。(2.4.4 LZ78 算法)
(2) 在编码原理上,LZW与LZ78 相比有如下差别:① LZW只输出代表词典中的缀-符
串(String)的码字(code word)。这就意味在开始时词典不能是空的,它必须包含可能在字符流
中出现的所有单个字符,即前缀根(Root)。② 由于所有可能出现的单个字符都事先包含在
词典中,每个编码步骤开始时都使用一字符前缀(one-character prefix),因此在词典中搜索的
第 1 个缀-符串有两个字符。③ 新前缀开始的字符是先前缀-符串(C)的最后一个字符,这样
在重构词典时就不需要在码字流中加入额外的字符。(2.4.5 LZW算法)
5
2.10 你是是否同意“某个事件的信息量就是某个事件的熵”的看法。
“信息量(information content)是具有确定概率事件的信息的定量度量”,而“熵(entropy)
是事件的信息量的平均值,也称事件的平均信息量(mean information content)”。
第3章 数字声音编码
3.1 音频信号的频率范围大约多少?话音信号频率范围大约多少?
(1) Audio: 20~20000 Hz
(2) Speech: 300~3400 Hz
3.2 什么叫做模拟信号?什么叫做数字信号?
(1) 模拟信号是幅度或频率发生连续变化的一种信号。
(2) 数字信号是以二进制代码形式表示有无或高低的一种信号。
3.3 什么叫做采样?什么叫做量化?什么叫做线性量化?什么叫做非线性量化?
(1) 采样:在某些特定的时刻对模拟信号进行测量的过程。
(2) 量化:幅值连续的模拟信号转化成为幅值离散的数字信号的过程。
(3) 线性量化:在量化时,信号幅度的划分是等间隔的量化。
(4) 非线性量化:在量化时,信号幅度的划分是非等间隔的量化。
3.4 采样频率根据什么原则来确定?
奈奎斯特理论和声音信号本身的最高频率。采样频率不应低于声音信号最高频率的两
倍,这样就能把以数字表达的声音还原成原来的声音。
3.5 样本精度为 8 位的信噪比等于多少分贝?
48 分贝
3.6 声音有哪几种等级?它们的频率范围分别是什么?
质 量 采 样 频 率
电 话*
AM
FM
CD
DAT
(kHz)
8
11.025
22.050
44.1
48
表 3-1 声音质量和数据率
样 本 精 度
(bit/s)
8
8
16
16
16
单 道 声/
立 体 声
单 道 声
单 道 声
立 体 声
立 体 声
立 体 声
数 据 率(kb/s)
(未 压 缩)
64.0
88.2
705.6
1411.2
1536.0
频 率 范 围
200~3 400 Hz
20~15 000Hz
50~7 000Hz
20~20 000 Hz
20~20 000 Hz
3.7 选择采样频率为 22.050 kHz和样本精度为 16 位的录音参数。在不采用压缩技术的情况
下,计算录制 2 分钟的立体声需要多少MB(兆字节)的存储空间(1MB=1024×1024B)
(22050×2×2×2×60)/(1024×1024) = 10.09 MB
3.8 什么叫做均匀量化?什么叫做非均匀量化?
6
(1) 均匀量化:采用相等的量化间隔对采样得到的信号进行量化。它是线性量化的另一
种说法。
(2) 非均匀量化:采用非相等的量化间隔对采样得到的信号进行量化。例如,对大的输
入信号采用大的量化间隔,对小的输入信号采用小的量化间隔。它是非线性量化的另一种说
法。
3.9 什么叫做μ率压扩?什么叫做A率压扩?
(1) 在脉冲编码调制(PCM)系统中,一种模拟信号和数字信号之间进行转换的CCITT压
(缩)扩(展)标准。在北美PCM电话网中,使用μ率压扩算法。
(2) 在脉冲编码调制(PCM)系统中,一种模拟信号和数字信号之间进行转换的CCITT压
(缩)扩(展)标准。在欧洲电话网,使用A律压扩算法。
对于采样频率为 8 kHz,样本精度为 13 比特、14 比特或 16 比特的输入信号,使用μ律
压扩编码或使用A律压扩编码,经过PCM编码器之后每个样本的精度为 8 比特,输出的数据
率为 64 kbps。
3.10 G.711 标准定义的输出数据率是多少?T1 的数据率是多少?T2 的数据率是多少?
(1) G.711 使用μ率和A率压缩算法,信号带宽为 3.4 kHz,压缩后的数据率为 64 kbps。
(2) T1 总传输率:1.544 Mbps。
(2) T2 总传输率:6.312 Mbps。
3.11 自适应脉冲编码调制(APCM)的基本思想是什么?
根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时
自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较
长时间周期里发生变化。
3.12 差分脉冲编码调制(DPCM)的基本思想是什么?
利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。这种技术是根
据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际
信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码
调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预
测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储
的数据量。此外,它还能适应大范围变化的输入信号。
3.13 自适应差分脉冲编码调制(ADPCM)的两个基本思想是什么?
ADPCM综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波
形编码。它的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量化阶
(step-size)去编码小的差值,使用大的量化阶去编码大的差值, ②使用过去的样本值估算下一
个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
第4章 彩色数字图像基础
4.1 什么叫做真彩色和伪彩色?
在一幅彩色图像中,每个像素值有R,G,B三个基色分量,每个基色分量直接决定显
示设备的基色强度,这样产生的彩色称为真彩色。例如用RGB 5∶5∶5 表示的彩色图像,R,
7