logo资料库

模式识别经典教材课后答案.pdf

第1页 / 共22页
第2页 / 共22页
第3页 / 共22页
第4页 / 共22页
第5页 / 共22页
第6页 / 共22页
第7页 / 共22页
第8页 / 共22页
资料共22页,剩余部分请下载后查看
绪论
贝叶斯决策理论
概率密度函数的估计
线性判别函数
非线性判别函数
近邻法
经验风险最小化和有序风险最小化方法
特征的选取和提取
基于K-L展开式的特征提取
非监督学习方法
模式识别(第二版)习题解答 目录 1 绪论 2 贝叶斯决策理论 3 概率密度函数的估计 4 线性判别函数 5 非线性判别函数 6 近邻法 7 经验风险最小化和有序风险最小化方法 8 特征的选取和提取 9 基于K-L展开式的特征提取 10 非监督学习方法 2 2 8 10 16 16 18 18 20 22 1
模式识别(第二版)习题解答 § 1 绪论 略 § 2 贝叶斯决策理论 • 2.1 如果只知道各类的先验概率,最小错误率贝叶斯决策规则应如何表示? 解:设一个有C类,每一类的先验概率为P (wi),i = 1, ..., C。此时最小错误率贝叶斯 决策规则为:如果i • 2.2 利用概率论中的乘法定理和全概率公式证明贝叶斯公式(教材中下面的公式有错 误) P (wi),则x ∈ wi。 ∗ = max i P (wi|x) = p(x|wi)P (wi) . p(x) 证明: P (wi|x) = P (wi, x) p(x) = p(x|wi)P (wi) p(x) • 2.3 证明:在两类情况下P (wi|x) + P (w2|x) = 1。 证明: P (w1|x) + P (w2|x) = P (w1, x) p(x) + P (w2, x) p(x) = P (w1, x) + P (w2, x) = p(x) p(x) p(x) = 1 • 2.4 分别写出在以下两种情况 1. P (x|w1) = P (x|w2) 2. P (w1) = P (w2) 下的最小错误率贝叶斯决策规则。 解: 当P (x|w1) = P (x|w2)时,如果P (w1) > P (w2),则x ∈ w1,否则x ∈ w2。 当P (w1) = P (w2)时,如果P (x|w1) > P (x|w2),则x ∈ w1,否则x ∈ w2。 • 2.5 1. 对c类情况推广最小错误率率贝叶斯决策规则; 2. 指出此时使错误率最小等价于后验概率最大,即P (wi|x) > P (wj|x) 对一切j ̸= i 成立时,x ∈ wi。 2
模式识别(第二版)习题解答 P (wj|x),则x ∈ wi。利用贝叶斯定理可以将其写成先验概率和 j=1;:::;c 解:对于c类情况,最小错误率贝叶斯决策规则为: 如果 P (wi|x) = max 类条件概率相联系的形式,即 如果 p(x|wi)P (wi) = max • 2.6 对两类问题,证明最小风险贝叶斯决策规则可表示为,若 p(x|wj)P (wj),则x ∈ wi。 j=1;:::;c p(x|w1) p(x|w2) > (λ12 − λ22)P (w2) (λ21 − λ11)P (w1) , 则x ∈ w1,反之则属于w2。 解:计算条件风险 R(α1|x) = 2∑ λ1jP (wj|x) j=1 = λ11P (w1|x) + λ12P (w2|x) 2∑ R(α2|x) = λ2jP (wj|x) 如果R(α1|x) < R(α2|x),则x ∈ w1。 j=1 = λ21P (w1|x) + λ22P (w2|x) λ11P (w1|x) + λ12P (w2|x) < λ21P (w1|x) + λ22P (w2|x) (λ21 − λ11)P (w1)p(x|w1) > (λ12 − λ22)P (w2)p(x|w2) (λ21 − λ11)P (w1|x) > (λ12 − λ22)P (w2|x) (λ12 − λ22)P (w2) (λ21 − λ11)P (w1) p(x|w1) p(x|w2) > 所以,如果 p(x|w1) p(x|w2) > • 2.7 若λ11 = λ22 = 0, λ12 = λ21,证明此时最小最大决策面是来自两类的错误率相等。 解: 最小最大决策时满足 ,则x ∈ w1。反之则x ∈ w2。 (λ12 − λ22)P (w2) (λ21 − λ11)P (w1) (λ11 − λ22) + (λ21 − λ11) ∫ 容易得到 p(x|w1)dx − (λ12 − λ22) p(x|w2)dx = 0 ∫ R2 ∫ p(x|w2)dx = p(x|w1)dx R1 R2 ∫ R1 所以此时最小最大决策面使得P1(e) = P2(e) • 2.8 对于同一个决策规则判别函数可定义成不同形式,从而有不同的决策面方程,指出 决策区域是不变的。 3
模式识别(第二版)习题解答 (p(x|w1))n+1 (p(x|w2))n dx 又E{ln+1(x)|w2} = j=1;:::;c ∗ = max j=1;:::;c ,l(x)又称为似然比,试证明 P (wj|x),则x ∈ wj。另外一种形式为j ∗ = 解: 对于同一决策规则(如最小错误率贝叶斯决策规则),它的判别函数可以是j p(x|wj)P (wj),则x ∈ wj。 max 考虑两类问题的分类决策面为:P (w1|x) = P (w2|x),与p(x|w1)P (w1) = p(x|w2)P (w2) 是相同的。 • 2.9 写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。 • 2.10 随机变量l(x)定义为l(x) = p(x|w1) p(x|w2) { (1) E{ln(x)|w1} = E{ln+1(x)|w2} { (2) E{l(x)|w2} = 1 { (3) E{l(x)|w1} − E2{l(x)|w2} = var{l(x)|w2}(教材中题目有问题) ∫ ∫ (p(x|w1))n+1 ∫ (p(x|w2))n dx 所以,E{ln(x)|w1} = E{ln+1(x)|w2} l(x)p(x|w2)dx = 对于(2),E{l(x)|w2} = 对于(3),E{l(x)|w1} − E2{l(x)|w2} = E{l2(x)|w2} − E2{l(x)|w2} = var{l(x)|w2} • 2.11 xj(j = 1, 2, ..., n)为n个独立随机变量,有E[xj|wi] = ijη,var[xj|wi] = i2j2σ2,计 算在λ11 = λ22 = 0 及λ12 = λ21 = 1的情况下,由贝叶斯决策引起的错误率。(中心极限 定理) 解: 在0 − 1损失下,最小风险贝叶斯决策与最小错误率贝叶斯决策等价。 • 2.12 写出离散形式的贝叶斯公式。 解: ∫ 证明:对于(1),E{ln(x)|w1} = ln(x)p(x|w1)dx = ln+1p(x|w2)dx = p(x|w1)dx = 1 ∫ ∫ ∑ P (wi|x) = P (x|wi)P (x) j=1 P (x|wi)P (wi) c • 2.13 把连续情况的最小错误率贝叶斯决策推广到离散情况,并写出其判别函数。 • 2.14 写出离散情况条件风险R(ai|x)的定义,并指出其决策规则。 解: c∑ c∑ j=1 R(ai|x) = = λijP (wj|x) λijp(x|wj)P (wj)////omit the same part p(x) j=1 j=1;2;:::;N R(aj|x),则ak就是最小风险贝叶斯决策。 R(ak|x) = min • 2.15 证明多元正态分布的等密度点轨迹是一个超椭球面,且其主轴方向由的特征向量 决定,轴长度由的特征值决定。 证明:多元正态分布的等密度点满足:xT −1x = C,C为常数。 4
模式识别(第二版)习题解答 • 2.16 证明M ahalanobis距离r符合距离定义三定理,即 { (1) r(a, b) = r(b, a) { (2) 当且仅当a = b时,r(a, b) = 0 { (3) r(a, c) ≤ r(a, b) + r(b, c) 证明: (1) r(a, b) = (a − b)T −1(a − b) = (b − a)T −1(b − a) = r(b, a) (2) 为半正定矩阵所以r(a, b) = (a− b)T −1(a− b) ≥ 0,只有当a = b时,才有r(a, b) = 0。 (3) −1可对角化,−1 = P P T ,证明M ahalanobis距离平方为 • 2.17 若将−1矩阵写为:−1 = γ2 = 证明: ··· h1d ··· h2d ... ... ··· hdd h11 h12 h12 h22 ... ... d∑ d∑ h1d h2d h11 h12 j=1 i=1 hij(xi − ui)(xj − uj)  (x − u) ··· h1d ··· h2d ... ... ··· hdd hij(xi − ui)(xj − uj) h12 h22 ... ... h1d h2d γ2 = (x − u)T d∑ d∑ = i=1 j=1 • 2.18 分别对于d = 2, d = 3证明对应与Mahalanobis距离γ的超椭球体积是V = Vd|| 1 } • 2.19 假定x和m是两个随机变量,并设在给定m时,x的条件密度为 { 2 γd 再假设m的边缘分布是正态分布,期望值是m0,方差是σ2 p(x|m) = (2π) 1 2 σ −1 exp [ −1 2 (x − m)2/σ2 ( m,证明 ] )2 p(m|x) = (σ3 + σm) 1 (2π) 1 2 σσm 2 exp −1 2 σ2 + σ2 m σ2σ2 m m − σ2 mx + m0σ2 σ2 + σ2 m 5
模式识别(第二版)习题解答 证明: p(m|x) = p(x|m)p(m) ∫ p(x) = p(x|m)p(m) {− 1 p(x|m)p(m)dm {− 1 ∫ −1 exp [ (2π) 1 2 σ 2 σ−1 exp (2π) 1 (σ3 + σm) 1 (2π) 1 2 σσm } } 2(x − m)2/σ2 −1 m exp (2π) 1 ( 2 σ 2(x − m)2/σ2 −1 m exp (2π) 1 2 σ −1 m − σ2 mx + m0σ2 σ2 + σ2 m 2 σ2 + σ2 m • 2.20 对i = σ2I的特殊情况,证明 σ2σ2 m exp = = 2 {− 1 } {− 1 } 2(m − m0)2/σ2 ] )2 2(m − m0)2/σ2 m m dm { (1) 若P (wi) ̸= P (wj),则超平面靠近先验概率较小的类; { (2) 在甚么情况下,先验概率对超平面的位置影响不大。 1 2 证明: (1)当P (wi) = P (wj)时,超平面经过x0 = (ui + uj),则对于先验概率较小的类 属于它的区域会减少,所以超平面经过的点会靠近先验概率较小的类。 (可以这样理 解,具体证明也很简单) (2)?不知道这是什么问题,先验概率不管在什么时候都很重要! • 2.21 对i = 的特殊情况,指出在先验概率不等时,决策面沿ui点与uj点连线向先验 概率小的方向移动。 证明: 同上面一题解释一样。 • 2.24 似然比决策准则为:若 • 2.23 二维正态分布,u1 = (−1, 0)T , u2 = (1, 0)T , 1 = 2 = I, P (w1) = P (w2)。试写出 对数似然比决策规则。 解: h(x) = − ln [l(x)] = − ln p(x|w1) + ln p(x|w2) = [ = ] 1 (x1 − u1) − 1 −1 2 1 2 1 2 = 0。所以判别规则为当(x−u1)T (x−u1) > (x−u2)T (x−u2)则x ∈ w1,反 [ ] (x2 − u2)T (x1 − u1)T 2 (x2 − u2) + −1 (x − u1)T (x − u1) − (x − u2)T (x − u2) [ [ ] 1 2 ln |1| |2| P (w1) P (w2) 而,ln 之则s ∈ w2。即将x判给离它最近的ui的那个类。 • 2.24 在习题2.23中若1 ̸= 2,1 = 策规则。 ] 1 1 2 1 2 1 ,2 = 1 − 1 − 1 2 1 2 ,写出负对数似然比决 6
模式识别(第二版)习题解答 解: h(x) = − ln [l(x)] (x2 − u2)T 2 (x2 − u2) + −1 ln 1 2 |1| |2| = − ln p(x|w1) + ln p(x|w2) = 1 (x1 − u1) − 1 (x1 − u1)T −1 2 − 2 )x − ( −1 −1 1 1 u1 − uT −1 2 −1 2 u2 + ln = 1 2 1 2 xT ( 1 1 (uT 2 ] = −4 1 ui − −1 −1 2 uj)T x+ |1| |2|) [ 而,ln P (w1) P (w2) 4 3 x1 3 x1x2 + = 0。决策面为x1(x2 − 1) = 0,如图1所示 图 1: 分类决策面 • 2.25 在习题2.24的情况下,若考虑损失函数λ11 = λ22 = 0, λ12 = λ21,画出似然比阈值 与错误率之间的关系。 { (1)求出P (e) = 0.05时完成Neyman-Pearson决策时总的错误率;(P (e)应该为P (e1) 或者P (e2)) { (2)求出最小最大决策的域值和总的错误率。 解: (1)损失函数在0-1损失函数条件下的最小风险贝叶斯决策等价于最小错误率贝叶斯 决策。似然比等于0的情况下错误率最小。当P (e1) = 0.05时, 7 xy1
模式识别(第二版)习题解答 ∫ ∫ (2)最小最大决策时,(λ11−λ22)+(λ21−λ11) p(x|w1)dx−(λ12−λ22) p(x|w2)dm = p(x|w2)dm,所以R1 = {(x1, x2)|x1(x2 − 1) > 0}, R2 R1 p(x|w1)dx = 0 可以得到, R2 = {(x1, x2)|x1(x2 − 1) < 0} R2 ∫ ∫ R1 § 3 概率密度函数的估计 • 3.1 设总体分布密度为N(u, 1),−∞ < u < +∞,并设X = {x1, x2, ..., xN},分别用最 大似然估计和贝叶斯估计计算^u。已知u的先验分布p(u) ∼ N(0, 1)。 解:似然函数为: ] · + −(xi − u)2 ( ) 2σ2 u − xi ) σ 2 exp 1√ ) ( 2πσ0 u − u0 ( N∑ σ0 2 ] [ −(u − u0)2 )] ]] ) 2σ2 0 ′′ exp = α −1 2 N σ2 + 1 σ2 0 u2 − 2 1 σ2 xi + u0 σ2 0 u i=1 将p(u|X )写成N(un, σ2 n)的形式,利用待定系数法,可以求得: 1 σ2 n un σ2 n = N N∑ σ2 + 1 σ2 1 σ2 0 xi + u0 σ2 0 i=1 = 8 N∑ (xi − u)2 + C N∑ ∂L(u) = ∂u N∑ xi i=1 ln p(xi|u) = −1 2 N∑ xi − N u = 0 i=1 i=1 L(u) = ln p(X |u) = 似然函数u求导 i=1 所以u的最大似然估计:^u = 1 N 贝叶斯估计:MAP(maximum a posterior) ∫ = α p(u|X ) = p(X |u)p(u) N∏ p(X |u)p(u)du p(xi|u)p(u) [ N∏ ( [ N∑ [( [ 1√ 2πσ −1 2 ′ exp exp = α = α i=1 i=1 i=1
分享到:
收藏