模式识别导论习题集
1、设一幅 256×256 大小的图像,如表示成向量,其维数是多少?如
按行串接成一维,则第 3 行第 4 个象素在向量表示中的序号。
解:其维数为 2;序号为 256×2+4=516
2、如标准数字 1 在 5×7 的方格中表示成如图所示的黑白图像,黑为 1,
白为 0,现若有一数字 1 在 5×7 网格中向左错了一列。试用分别计算
要与标准模板之间的欧氏距离、绝对值偏差、偏差的夹角表示,异己
用“异或”计算两者差异。
解:把该图像的特征向量为 5×7=35 维,其中标准模版的特征向量为:
x=[0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0]T
待测样本的特征向量为:
y=[0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0]T
因此欧氏距离为 35
,
,绝对值偏差为 35
14
) | 14
| (
x
(
x
y
i
2
)
y
i
i
i
i
1
夹角余弦为cos
||
,因此夹角为 90 度。
0
y
||
i
1
Tx y
||
||
x
3、哈明距离常用来计算二进制之间的相似度,如 011 与 010 的哈明距
离为 1,010 与 100 距离为 3。现用来计算 7 位 LED 编码表示的个数
字之间的相似度,试计算 3 与其它数字中的哪个数字的哈明距离最小。
解:是“9”,距离为 1
4、对一个染色体分别用一下两种方法描述:
(1)计算其面积、周长、面积/周长、面积与其外接矩形面积之比可
以得到一些特征描述,如何利用这四个值?属于特征向量法,还是结
构表示法?
(2)按其轮廓线的形状分成几种类型,表示成 a、b、c 等如图表示,
如何利用这些量?属哪种描述方法?
(3)设想其他结构描述方法。
解:
(1)这是一种特征描述方法,其中面积周长可以体现染色体大
小,面积周长比值越小,说明染色体越粗,面积占外接矩形的比例也
体现了染色体的粗细。把这四个值组成一个维数为 4 的特征向量,该
特征向量可以描述染色体的一些重要特征,可以按照特征向量匹配方
法计算样本间的相似度。可以区分染色体和其它圆形、椭圆细胞结构。
(2)a 形曲线表示水平方向的凹陷,b 形表示竖直方向的凹陷,c
形指两个凹陷之间的突起,把这些值从左上角开始,按顺时针方向绕
一圈,可以得到一个序列描述染色体的边界。它可以很好的体现染色
体的形状,用于区分 X 和 Y 染色体很合适。这是结构表示法。
(3)可以先提取待识别形状的骨架,在图中用蓝色表示,然后,
用树形表示骨架图像。
5. 设在一维特征空间中两类样本服从正态分布, 1 = 2 =1,µ1=0,µ2=3,
(
(
两类先验概率之比
,试求按基于最小错误率贝叶斯决策
1
2
原则的决策分界面的 x 值。
解:按照公式(2-84),分界面上的点应满足:
)
P
/)
P
e
[(
x
0) 1 (
x
0)
(
x
3) 1 (
x
3)]
1
2
ln
1
1
ln
e
0
1
2
3
x
0
11
2
x
11
6
6. 设有两类正态分布的样本集,第一类均值
1
t)0,2(
,
1
1
2/1
2/1
1
,
,现按基于最小错误率贝叶斯决策设计
)
1
P
(
2
t)2,2(
(
P
先验概率
2
分类器,试求分类器得分界面。
解:按照公式(2-84),分界面上的点应满足:
ln
[(
)]
x
x
x
x
1
(
(
1
(
)
T
2
)
T
)
1
)
1
2
1
2
1
1
ln1 0
1
(
x
)
1
(
x
T
2
)
1
(
x
2
)
1
2
(
x
x
1
T
)
1
2
x
2
7. 已知某一正态分布二维随机变量的协方差矩阵为
1
2/1
2/1
1
,均值
向量为零向量。试求其 mahalanobis 距离为 1 的点的轨迹。(不要求)
8. 设有二维随机变量的分布如图 a、b、c 所示的三种情况,协方差矩
,试问这三种分布分别对应哪种情况(A. a12>0 B.
阵表示成
a
11
a
21
a
12
a
22
(
x
1
{
E
x
1
x
2
a12<0 C. a12≈0)?
解:这 3 种情况都存在均值向量μ=0,所以协方差矩阵为
所以对于图 a 而言,明显有 1 2x x 的平均值>0,因此 a→A,
对于图 b 而言,明显有 1 2x x 的平均值=0,因此 b→C,
对于图 b 而言,明显有 1 2x x 的平均值<0,因此 c→B,
E
2
x
1
x x
1 2
x x
1 2
2
x
2
)}
x
2
a
c
b
图 1
9. 什么叫对称矩阵?什么叫正定矩阵?半正定矩阵?试问协方差矩
阵是否是对称矩阵?
是否是正定矩阵或半正定矩阵?
答:对称阵:aij=aji。正定阵:它的特征值都大于 0。半正定阵:它的
特征值都大于等于 0。协方差矩阵是正定阵。
10. 设有 N 个 d 维向量组成样本集,表示成 X1,…,Xn,Σ是任一个
为最小的向量 X
x
x
1
)
(
N
k
非奇异对称阵,证明使
是该样本集的均值向量。(不要求)
x
x
1
)
(
T
k
k
证明:显然可以看出这是一个多元二次式。故极值位置是导数为零的
位置,求导,得:
N
k
1
(
x
k
T
x
)
N
1
k
1
1
(
x
k
x
)
0
,这是一个一次方程组,在
x
N
k
x
1
N
k
处得零。故极值在这里取得。
11. 设一个二维空间中的两类样本服从正态分布,其参数分别为
1
t)0,1(
,
1
01
10
,
t)0,1(
2
,
2
02
20
,先验概率
P
(
P
)
1
(
2
)
,
试证明其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方
程。
证明:先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上
两类条件概率密度函数相等。因此有:
1
2
(
(
X
T
)
1
1
1
(
X
)
1
x
1
2
1)
2
x
2
2
(
x
1
1)
1
2
4ln28
1
2
1
2
(
X
T
2
)
1
2
(
X
2
)
1
2
ln |
2
|
ln |
|
1
1
2
2
x
2
ln 4
化简为
(
x
1
2
)3
x
2
2
,是一个圆的方程
12. 将上题推广到一般情况(不要求)
(1) 若
I2
1
,
k
2
,试说明先验概率相等条件
1
下,基于最小错误率的贝叶斯决策面是否是超球面;
(2) 它能否用 mahalanobis 距离平方为常数的轨迹表
示
(3) 用 mahalanobis 距离表示的轨迹,分析其Σ与Σ1,Σ2
的关系.
13. 对两类问题,若损失函数
11
22
0
, 0
12
,
21
0
风险贝叶斯决策分界面处的两类错误率与 12 ,
(不要求)
,试求基于最小
21 的关系。
14. 思考题:如果有两类问题,ω1 和ω2,现欲严格限制错将第二类误
?(不要
)1(
)2(
1
2
判成第一类的情况,那么应如何选择
求)
)2(
1
)1(
2
,
,
,
15. 证明在Σ正定或半正定时,mahalanobis 距离 r 符合距离定义的三个
条件,即(不要求)
(1) r(a,b)=r(b,a)
(2) 当且仅当 a=b 时,有 r(a,b)=0
(3) r(a,c)≤r(a,b)+r(b,c)
16、设五维空间的线性方程为
16
26
x
3
5
wXW T
试求出其权向量与样本向量点积的表达式
0
以及增广权向量与增广样本向量形式 YaT 中的 a 与 Y。
32
68
55
x
1
x
x
x
4
2
解:W=[55 68 32 16 26]T,X=[x1 x2 x3 x4 x5]
a=[55 68 32 16 26 10]T,Y=[x1 x2 x3 x4 x5 1]
0
0
,
10
中的 W,X
17、上式是一个五维空间的超平面,试求该平面到坐标原点的法向距
离。
解:根据式(4-8),该式的权向量的模为:
2
2
2
2
2
68
26
16
12
55
W
而超平面到坐标原点的距离为
w
0
W
10
W
2
349
18、设在三维空间中一个类别分类问题拟采用二次曲面。如欲采用广
义线性方程求解。试向其广义样本向量与广义权向量的表达式,其维
数是多少?
解:根据式(5-29)
w x
kk
T
0
d
d
j
d
1
d
k
k
0
jk
j
j
1
1
2
k
w
1
j
( )
g x
其中
w x x
j
w x w
T
x Wx w x w
k
w
13
w
23
w
33
2
2
1
j
w
w
1
11
w
W w
2
12
w
w
3
13
2
2
2
w x w bx w cx
w x x
3
11 1
12 1 2
0
w x w x w x w
0
1 1
2
2
,
(
,
x x x x x x x x x x x x
Y
因此可令其广义样本向量为
1
3
2
3
,
,
(
w w w
W
11
13
w
12
w
22
w
23
广义权向量为
,
1 3
,2
w
13
w x x
13 1 3
1 2
,2
w
12
可得:
2 3
,2
2 2
3 3
,
,
2
2
22
33
2
2
12
,
,
w x x
23 2 3
,
w w w w w
23
0
,1) T
,
,
,
1
,
1
2
3
) T
19 、 设 两 类 样 本 的 类 内 离 散 矩 阵 分 别 为
1S
1
2/1
2/1
1
,
2S
1
2/1
2/1
1
均值向量
m
1
,)0,2(
t m
2
)2,2(
t
试用 fisher 准则求其决策面方
程。
解:由式(4-18)和(4-32)分别得总类内离散度矩阵和最佳投影方向
S
w
S
1
S
2
02
20
W
1
mmS
w
(
1
)
2
5.0
0
0
5.0
0
2
0
1
为
为,
因此,原二维空间的均值 m1、m2 在一维 y 空间中的投影分别
2
T
T
0
,
m W m
2
m W m
1
1
由于两类样本分布形状是相同的(只是方向不同),根据先验知
识 由 式 (4-33) 选 定 分 界 阈 值 点 y0 应 为 两 类 均 值 的 中 点 : 即
y
2
,
) / 2
。
1
(
m m
1
2
0
20、设在一个二维空间,A 类有三个训练样本,图中用红点表示,B
类四个样本,图中用蓝点表示。
试问:
(1) 按近邻法分类,这两类最多有多少个分界面
(2) 画出实际用到的分界面
(3) A1 与 B4 之间的分界面
有没有用到?
解: (1)按近邻法,对任意两个由不同类别的训练样本构成
的样本对,如果它们有可能成为测试样本的近邻,则它们构成一组最
小距离分类器,它们之间的中垂面就是分界面,因此由三个 A 类与四
个 B 类训练样本可能构成的分界面最大数量为 3×4=12。
(2)实际分界面如下图所示,由 9 条线段构成。
(3)没有用到。因为它可以用 A1 与 B1 的分界面代替。
J
c
1
x
i
i
t
)1,1(,)0,1(,)1,0(
0
t
x m
i
t
t
)1,1(,)0,2(,)0,1(
21、C-均值算法的准则函数为:
据分别为
试求:
1) 两个集群的均值。
2) 若将 t)1,1( 数据从第一个集群转移至第二个时,准则函数值 J0
,设两个集群的数
与
t
t
2
的变化量。