模式识别(第二版)习题解答
目录
1 绪论
2 贝叶斯决策理论
3 概率密度函数的估计
4 线性判别函数
5 非线性判别函数
6 近邻法
7 经验风险最小化和有序风险最小化方法
8 特征的选取和提取
9 基于K-L展开式的特征提取
10 非监督学习方法
2
2
8
10
16
16
18
18
20
22
1
模式识别(第二版)习题解答
§ 1 绪论
略
§ 2 贝叶斯决策理论
• 2.1 如果只知道各类的先验概率,最小错误率贝叶斯决策规则应如何表示?
解:设一个有C类,每一类的先验概率为P (wi),i = 1, ..., C。此时最小错误率贝叶斯
决策规则为:如果i
• 2.2 利用概率论中的乘法定理和全概率公式证明贝叶斯公式(教材中下面的公式有错
误)
P (wi),则x ∈ wi。
∗ = max
i
P (wi|x) = p(x|wi)P (wi)
.
p(x)
证明:
P (wi|x) = P (wi, x)
p(x)
= p(x|wi)P (wi)
p(x)
• 2.3 证明:在两类情况下P (wi|x) + P (w2|x) = 1。
证明:
P (w1|x) + P (w2|x) = P (w1, x)
p(x)
+ P (w2, x)
p(x)
= P (w1, x) + P (w2, x)
= p(x)
p(x)
p(x)
= 1
• 2.4 分别写出在以下两种情况
1. P (x|w1) = P (x|w2)
2. P (w1) = P (w2)
下的最小错误率贝叶斯决策规则。
解: 当P (x|w1) = P (x|w2)时,如果P (w1) > P (w2),则x ∈ w1,否则x ∈ w2。
当P (w1) = P (w2)时,如果P (x|w1) > P (x|w2),则x ∈ w1,否则x ∈ w2。
• 2.5
1. 对c类情况推广最小错误率率贝叶斯决策规则;
2. 指出此时使错误率最小等价于后验概率最大,即P (wi|x) > P (wj|x) 对一切j ̸= i
成立时,x ∈ wi。
2
模式识别(第二版)习题解答
P (wj|x),则x ∈ wi。利用贝叶斯定理可以将其写成先验概率和
j=1;:::;c
解:对于c类情况,最小错误率贝叶斯决策规则为:
如果 P (wi|x) = max
类条件概率相联系的形式,即
如果 p(x|wi)P (wi) = max
• 2.6 对两类问题,证明最小风险贝叶斯决策规则可表示为,若
p(x|wj)P (wj),则x ∈ wi。
j=1;:::;c
p(x|w1)
p(x|w2) >
(λ12 − λ22)P (w2)
(λ21 − λ11)P (w1) ,
则x ∈ w1,反之则属于w2。
解:计算条件风险
R(α1|x) =
2∑
λ1jP (wj|x)
j=1
= λ11P (w1|x) + λ12P (w2|x)
2∑
R(α2|x) =
λ2jP (wj|x)
如果R(α1|x) < R(α2|x),则x ∈ w1。
j=1
= λ21P (w1|x) + λ22P (w2|x)
λ11P (w1|x) + λ12P (w2|x) < λ21P (w1|x) + λ22P (w2|x)
(λ21 − λ11)P (w1)p(x|w1) > (λ12 − λ22)P (w2)p(x|w2)
(λ21 − λ11)P (w1|x) > (λ12 − λ22)P (w2|x)
(λ12 − λ22)P (w2)
(λ21 − λ11)P (w1)
p(x|w1)
p(x|w2) >
所以,如果 p(x|w1)
p(x|w2) >
• 2.7 若λ11 = λ22 = 0, λ12 = λ21,证明此时最小最大决策面是来自两类的错误率相等。
解: 最小最大决策时满足
,则x ∈ w1。反之则x ∈ w2。
(λ12 − λ22)P (w2)
(λ21 − λ11)P (w1)
(λ11 − λ22) + (λ21 − λ11)
∫
容易得到
p(x|w1)dx − (λ12 − λ22)
p(x|w2)dx = 0
∫
R2
∫
p(x|w2)dx =
p(x|w1)dx
R1
R2
∫
R1
所以此时最小最大决策面使得P1(e) = P2(e)
• 2.8 对于同一个决策规则判别函数可定义成不同形式,从而有不同的决策面方程,指出
决策区域是不变的。
3
模式识别(第二版)习题解答
(p(x|w1))n+1
(p(x|w2))n dx 又E{ln+1(x)|w2} =
j=1;:::;c
∗ = max
j=1;:::;c
,l(x)又称为似然比,试证明
P (wj|x),则x ∈ wj。另外一种形式为j
∗ =
解: 对于同一决策规则(如最小错误率贝叶斯决策规则),它的判别函数可以是j
p(x|wj)P (wj),则x ∈ wj。
max
考虑两类问题的分类决策面为:P (w1|x) = P (w2|x),与p(x|w1)P (w1) = p(x|w2)P (w2)
是相同的。
• 2.9 写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。
• 2.10 随机变量l(x)定义为l(x) = p(x|w1)
p(x|w2)
{ (1) E{ln(x)|w1} = E{ln+1(x)|w2}
{ (2) E{l(x)|w2} = 1
{ (3) E{l(x)|w1} − E2{l(x)|w2} = var{l(x)|w2}(教材中题目有问题)
∫
∫
(p(x|w1))n+1
∫
(p(x|w2))n dx 所以,E{ln(x)|w1} = E{ln+1(x)|w2}
l(x)p(x|w2)dx =
对于(2),E{l(x)|w2} =
对于(3),E{l(x)|w1} − E2{l(x)|w2} = E{l2(x)|w2} − E2{l(x)|w2} = var{l(x)|w2}
• 2.11 xj(j = 1, 2, ..., n)为n个独立随机变量,有E[xj|wi] = ijη,var[xj|wi] = i2j2σ2,计
算在λ11 = λ22 = 0 及λ12 = λ21 = 1的情况下,由贝叶斯决策引起的错误率。(中心极限
定理)
解: 在0 − 1损失下,最小风险贝叶斯决策与最小错误率贝叶斯决策等价。
• 2.12 写出离散形式的贝叶斯公式。
解:
∫
证明:对于(1),E{ln(x)|w1} =
ln(x)p(x|w1)dx =
ln+1p(x|w2)dx =
p(x|w1)dx = 1
∫
∫
∑
P (wi|x) =
P (x|wi)P (x)
j=1 P (x|wi)P (wi)
c
• 2.13 把连续情况的最小错误率贝叶斯决策推广到离散情况,并写出其判别函数。
• 2.14 写出离散情况条件风险R(ai|x)的定义,并指出其决策规则。
解:
c∑
c∑
j=1
R(ai|x) =
=
λijP (wj|x)
λijp(x|wj)P (wj)////omit the same part p(x)
j=1
j=1;2;:::;N
R(aj|x),则ak就是最小风险贝叶斯决策。
R(ak|x) = min
• 2.15 证明多元正态分布的等密度点轨迹是一个超椭球面,且其主轴方向由的特征向量
决定,轴长度由的特征值决定。
证明:多元正态分布的等密度点满足:xT −1x = C,C为常数。
4
模式识别(第二版)习题解答
• 2.16 证明M ahalanobis距离r符合距离定义三定理,即
{ (1) r(a, b) = r(b, a)
{ (2) 当且仅当a = b时,r(a, b) = 0
{ (3) r(a, c) ≤ r(a, b) + r(b, c)
证明:
(1) r(a, b) = (a − b)T −1(a − b) = (b − a)T −1(b − a) = r(b, a)
(2) 为半正定矩阵所以r(a, b) = (a− b)T −1(a− b) ≥ 0,只有当a = b时,才有r(a, b) =
0。
(3) −1可对角化,−1 = P P T
,证明M ahalanobis距离平方为
• 2.17 若将−1矩阵写为:−1 =
γ2 =
证明:
··· h1d
··· h2d
...
...
··· hdd
h11 h12
h12 h22
...
...
d∑
d∑
h1d h2d
h11 h12
j=1
i=1
hij(xi − ui)(xj − uj)
(x − u)
··· h1d
··· h2d
...
...
··· hdd
hij(xi − ui)(xj − uj)
h12 h22
...
...
h1d h2d
γ2 = (x − u)T
d∑
d∑
=
i=1
j=1
• 2.18 分别对于d = 2, d = 3证明对应与Mahalanobis距离γ的超椭球体积是V = Vd|| 1
}
• 2.19 假定x和m是两个随机变量,并设在给定m时,x的条件密度为
{
2 γd
再假设m的边缘分布是正态分布,期望值是m0,方差是σ2
p(x|m) = (2π) 1
2 σ
−1 exp
[
−1
2
(x − m)2/σ2
(
m,证明
]
)2
p(m|x) =
(σ3 + σm) 1
(2π) 1
2 σσm
2
exp
−1
2
σ2 + σ2
m
σ2σ2
m
m − σ2
mx + m0σ2
σ2 + σ2
m
5
模式识别(第二版)习题解答
证明:
p(m|x) = p(x|m)p(m)
∫
p(x)
= p(x|m)p(m)
{− 1
p(x|m)p(m)dm
{− 1
∫
−1 exp
[
(2π) 1
2 σ
2 σ−1 exp
(2π) 1
(σ3 + σm) 1
(2π) 1
2 σσm
}
}
2(x − m)2/σ2
−1
m exp
(2π) 1
(
2 σ
2(x − m)2/σ2
−1
m exp
(2π) 1
2 σ
−1
m − σ2
mx + m0σ2
σ2 + σ2
m
2
σ2 + σ2
m
• 2.20 对i = σ2I的特殊情况,证明
σ2σ2
m
exp
=
=
2
{− 1
}
{− 1
}
2(m − m0)2/σ2
]
)2
2(m − m0)2/σ2
m
m
dm
{ (1) 若P (wi) ̸= P (wj),则超平面靠近先验概率较小的类;
{ (2) 在甚么情况下,先验概率对超平面的位置影响不大。
1
2
证明: (1)当P (wi) = P (wj)时,超平面经过x0 =
(ui + uj),则对于先验概率较小的类
属于它的区域会减少,所以超平面经过的点会靠近先验概率较小的类。 (可以这样理
解,具体证明也很简单)
(2)?不知道这是什么问题,先验概率不管在什么时候都很重要!
• 2.21 对i = 的特殊情况,指出在先验概率不等时,决策面沿ui点与uj点连线向先验
概率小的方向移动。
证明: 同上面一题解释一样。
• 2.24 似然比决策准则为:若
• 2.23 二维正态分布,u1 = (−1, 0)T , u2 = (1, 0)T , 1 = 2 = I, P (w1) = P (w2)。试写出
对数似然比决策规则。
解:
h(x) = − ln [l(x)]
= − ln p(x|w1) + ln p(x|w2)
=
[
=
]
1 (x1 − u1) − 1
−1
2
1
2
1
2
= 0。所以判别规则为当(x−u1)T (x−u1) > (x−u2)T (x−u2)则x ∈ w1,反
[
]
(x2 − u2)T
(x1 − u1)T
2 (x2 − u2) +
−1
(x − u1)T (x − u1) − (x − u2)T (x − u2)
[
[
]
1
2
ln
|1|
|2|
P (w1)
P (w2)
而,ln
之则s ∈ w2。即将x判给离它最近的ui的那个类。
• 2.24 在习题2.23中若1 ̸= 2,1 =
策规则。
]
1
1
2
1
2
1
,2 =
1 − 1
− 1
2
1
2
,写出负对数似然比决
6
模式识别(第二版)习题解答
解:
h(x) = − ln [l(x)]
(x2 − u2)T
2 (x2 − u2) +
−1
ln
1
2
|1|
|2|
= − ln p(x|w1) + ln p(x|w2)
=
1 (x1 − u1) − 1
(x1 − u1)T
−1
2
−
2 )x − (
−1
−1
1
1 u1 − uT
−1
2
−1
2 u2 + ln
=
1
2
1
2 xT (
1
1
(uT
2
]
= −4
1 ui −
−1
−1
2 uj)T x+
|1|
|2|)
[
而,ln
P (w1)
P (w2)
4
3 x1
3 x1x2 +
= 0。决策面为x1(x2 − 1) = 0,如图1所示
图 1: 分类决策面
• 2.25 在习题2.24的情况下,若考虑损失函数λ11 = λ22 = 0, λ12 = λ21,画出似然比阈值
与错误率之间的关系。
{ (1)求出P (e) = 0.05时完成Neyman-Pearson决策时总的错误率;(P (e)应该为P (e1)
或者P (e2))
{ (2)求出最小最大决策的域值和总的错误率。
解:
(1)损失函数在0-1损失函数条件下的最小风险贝叶斯决策等价于最小错误率贝叶斯
决策。似然比等于0的情况下错误率最小。当P (e1) = 0.05时,
7
xy1
模式识别(第二版)习题解答
∫
∫
(2)最小最大决策时,(λ11−λ22)+(λ21−λ11)
p(x|w1)dx−(λ12−λ22)
p(x|w2)dm =
p(x|w2)dm,所以R1 = {(x1, x2)|x1(x2 − 1) > 0},
R2
R1
p(x|w1)dx =
0 可以得到,
R2 = {(x1, x2)|x1(x2 − 1) < 0}
R2
∫
∫
R1
§ 3 概率密度函数的估计
• 3.1 设总体分布密度为N(u, 1),−∞ < u < +∞,并设X = {x1, x2, ..., xN},分别用最
大似然估计和贝叶斯估计计算^u。已知u的先验分布p(u) ∼ N(0, 1)。
解:似然函数为:
]
·
+
−(xi − u)2
(
)
2σ2
u − xi
)
σ
2
exp
1√
)
(
2πσ0
u − u0
(
N∑
σ0
2
]
[
−(u − u0)2
)]
]]
)
2σ2
0
′′ exp
= α
−1
2
N
σ2 +
1
σ2
0
u2 − 2
1
σ2
xi + u0
σ2
0
u
i=1
将p(u|X )写成N(un, σ2
n)的形式,利用待定系数法,可以求得:
1
σ2
n
un
σ2
n
= N
N∑
σ2 +
1
σ2
1
σ2
0
xi + u0
σ2
0
i=1
=
8
N∑
(xi − u)2 + C
N∑
∂L(u)
=
∂u
N∑
xi
i=1
ln p(xi|u) = −1
2
N∑
xi − N u = 0
i=1
i=1
L(u) = ln p(X |u) =
似然函数u求导
i=1
所以u的最大似然估计:^u =
1
N
贝叶斯估计:MAP(maximum a posterior)
∫
= α
p(u|X ) = p(X |u)p(u)
N∏
p(X |u)p(u)du
p(xi|u)p(u)
[
N∏
(
[
N∑
[(
[
1√
2πσ
−1
2
′ exp
exp
= α
= α
i=1
i=1
i=1