logo资料库

国科大模式识别部分总结.docx

第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
资料共28页,剩余部分请下载后查看
R = E{Φa aTΦT}=Φ(E{a aT})ΦT
什么是模式: • 广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或 是否相似,都可以称之为模式。 • 模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时 间和空间分布的信息。 • 模式的直观特性: – 可观察性 – 可区分性 相似性 机器学习: 研究如何构造理论、算法和计算机系统,让机器通过从数据中学习后可以进行如下工作: 分类和识别事物、推理决策、预测未来等。  贝叶斯判别 根据概率判别规则,有: 若 P(ω1 | x) > P(ω2 | x),则 若 P(ω1 | x) < P(ω2 | x),则 x  1 x  2 由贝叶斯定理,后验概率 P(ωi | x)可由类别ωi的先验概率 P(ωi)和 x 的条件概率密度 p(x | ωi) 来计算,即: (P  i )x|  |x(p ) i (P)  i )x(p  |x(p 2  |x(p  i (P) ) i (P)  i i 1i  ) 这里 p(x | ωi)也称为似然函数。将该式代入上述判别式,有: 若 p(x | ω1)P(ω1) > p(x | ω2)P(ω2),则 若 p(x | ω1)P(ω1) < p(x | ω2)P(ω2),则 x  1 x  2 l 12 )x(  若 |x(p |x(p  1  2 ) )  (P (P  2  1 ) ) ,则 x  ,若 1 )x(l 12  |x(p |x(p )  1 )  2  (P (P )  2 )  1 ,则 x  2 其中,l12 称为似然比,P(ω2)/P(ω1)=θ21 称为似然比的判决阈值,此判别称为贝叶斯判别。  贝叶斯判别计算实例 已知:P(ω1)=0.2,P(ω2)=0.8, p(x=异常|ω1)=0.6,p(x=正常|ω1)=0.4, p(x=异常|ω2)=0.1,p(x=正常|ω2)=0.9 利用贝叶斯公式,有: P (  1 | x  异常 )  ( p x ( p x   1 ( ) | ) P    异常 1 ) ( p x  异常 ( p x  异常 ( ) ) P    1 0.6  1 |  异常 0.6 0.2   0.6 0.2 0.1 0.8   ( ) | )   1 1 ( p x 异常 P  |   2 P ) ( 2 )
似然比: l 12  p(x p(x   异常 异常 | |  1  2 ) )  0.6 0.1  6 判决阈值:  21  P( P(  2  1 ) )  0.8 0.2  4 贝叶斯最小风险判别:  最小平均条件风险表达式 按贝叶斯公式,最小平均条件风险可写成: )x(r j  1 )x(p M  1i  |x(pL ij )  i (P) i 因 1/p(x)为公共项,可舍去,因此可简化为: )x(r j  M  1i  |x(pL ij )  i (P) i 这也是贝叶斯分类器,只是它的判别方法不是按错误概率最小作为标准,而是按平均条 件风险作为标准。  两类(M=2)情况的贝叶斯最小风险判别 选 M=2,即全部的模式样本只有ω1 和ω2 两类,要求分类器将模式样本分到ω1 和ω2 两类 中,则平均风险可写成:  当分类器将 x 判别为ω1 时: |x(pL)x(r 1 当分类器将 x 判别为ω2 时: |x(pL)x(r 2  12 11  1 (P) 1 |x(pL)  21  2 (P) 2 )  1 (P) 1 |x(pL)  22  2 (P) 2 ) 若 r1(x)Lii,有当 |x(p |x(p  1  2 ) )  (P (P  2  1 ) )  L L 21 12   L L 22 11 时, x  1 该式左边为似然比: l 12  |x(p |x(p  1  2 ) ) 右边为阈值: L L 11 故得两类模式的贝叶斯判别条件为: )  2 )  1 L 21 L 12 (P (P  21     22
(1) 若 l12(x)>θ21,则 x  1 x  2 (2) 若 l12(x)<θ21,则 (3) 若 l12(x)=θ21,则可做任意判别。 通常,当判别正确时,不失分,可选常数 L11=L22=0;判别错误时,可选 L12=L21=1,此时 )    2 21  ) 1 (P (P 。  两类(M=2)情况的贝叶斯最小风险判别实例 如图所示为一信号通过一受噪声干扰的信道。 信道输入信号为 0 或 1,噪声为高斯型,均值μ=0,方差为б2。 信道输出为 x,试求最优的判别规则,以区分 x 是 0 还是 1。 设送 0 为ω1 类,送 1 为ω2 类,从观察值 x 的基础上判别它是 0 还是 1。直观上可以看出, 若 x<0.5 应判为 0,x>0.5 应判为 1。用贝叶斯判别条件分析:设信号送 0 的先验概率为 P(0), 送 1 的先验概率为 P(1),L 的取值为: a 1 0 L a 2 L 12 0 L   1  2 21       这里 a1 和 a2分别对应于输入状态为 0 和 1 时的正确判别,L12对应于实际上是ω1 类但被判成 ω2 类(a2)时的代价,L21 对应于实际上是ω2 类但被判成ω1 类(a1)时的代价。正确判别时 L 取 0。 当输入信号为 0 时,受噪声为正态分布 N(0,б2)的干扰,其幅值大小的概率密度为: ( xp |  1 )   2 x 2 2  (  2 )1 x  2 2  e 1 e 2  1 2  1 2 x  e  2 2 当输入信号为 1 时: ( xp |  2 )  则似然比为: l 12  p(x| p(x| )  1 )  2  若 12 l 21 1 2 x  ,即 2   2 21 e     x 1 2 2   21 ln ,则 1x ,此时信号应是 0,即
x  1 2  2  ln    L 21 L 12  )1( P )0( P    若取 L21=L12=1,P(1)=P(0),则 x<1/2 判为 0。 若无噪声干扰,即б2=0,则 x<1/2 判为 0。  多类(M 类)情况的贝叶斯最小风险判别 ,2,1j),x(r j 对于 M 类情况,若 i L 可如下取值(仍按判对失分为 0,判错失分为 1 记): j,M, )x(r i     ,则 x  。 i  Lij when when 则条件平均风险可写成: 0   1  i i   j j  i (P) i ) )x(r j     M |x(pL ij  1i  |x(pL j1 M  1i  |x(p)x(p |x(p   1 (P) 1 )    |x(pL jj  j (P) j )    |x(pL Mj  M (P) M )  i (P) i |x(p)   j (P) j )  j (P) j ) 由 )x(r i  )x(r j ,有当 |x(p  i (P) i )  |x(p  j (P) j ) 时, x  ,对应于判别 i 函数为:取 )x(d i  ,2,1i),  M, ,则对于全部 j  的值,若 i i  i |x(p (P) x  。  )x(d)x(d i  M 种模式类别的多变量正态类密度函数 ,则 i j 具有 M 种模式类别的多变量正态类密度函数为: |x(p  i )  1 2/n |C| i 2/1 exp     1 2 )2(  ,2,1i,)mx(C)mx(    T 1  i i i    M, 其中,每一类模式的分布密度都完全被其均值向量 mi 和协方差矩阵 Ci 所规定,其定义为: i i i    )( i  }{xEm mxmxEC i {( i Ei{x}表示对类别属于ωi 的模型的数学期望。 在上述公式中,n 为模式向量的维数,|Ci|为矩阵 Ci 的行列式,协方差矩阵 Ci 是对称的正 定矩阵,其对角线上的元素 Ckk 是模式向量第 k 个元素的方差,非对角线上的元素 Cjk是 x 的 第 j 个分量 xj 和第 k 个分量 xk 的协方差。当 xj 和 xk 统计独立时,Cjk=0。当协方差矩阵的全部 非对角线上的元素都为零时,多变量正态类密度函数可简化为 n 个单变量正态类密度函数 的乘积。 T }) 已知类别ωi 的判别函数可写成如下形式: ,2,1i),  i )x(d i |x(p (P)   i M,
对于正态密度函数,可取自然对数的形式以方便计算(因为自然对数是单调递增的,取 对数后不影响相应的分类性能),则有: (Pln |x(pln[ 代入正态类密度函数,有: )x(d i  i )]    i ,2,1i),  M, )x(d i  (Pln )  i  )2ln(   1 2 ln |C| i  n 2 T ,2,1i),mx(C)mx(    1  i i i M, 1 2 去掉与 i 无关的项(并不影响分类结果),有: )x(d i  (Pln )  i  1 2 ln 1|C|  2 i 即为正态分布模式的贝叶斯判别函数。  两类问题且其类模式都是正态分布的情况 ,2,1i),mx(C)mx(    T 1  i i i M, (1) 当 1 C C  时,两类模式的正态分布为:p(x|ω1)表示为 N(m1, C1),p(x|ω2)表示为 N(m2, 2   1 (Pln )x(d 1 C2),ω1 和ω2 两类的判别函数对应为: 1|C|  2 1|C|  2 1)  2 )x(d 2 (Pln  2 ln   ) 1 2 )mx(C)mx( 1 1  1   T 1 )mx(C)mx( 2 1  2   T 2 ln 1 2 x0 x0    1  2 )x(d)x(d 1  2       (2) 当 C1=C2=C 时,有: )x(d i   1 ) (Pln ln  i 2 1mCx  2 1 2 1  T i 1|C|  2 1 xCm  T i 1 T xCx    1 2 2,1i,mCm  1  T i i 因 C 为对称矩阵,上式可简化为: 1 2 )x(d i (Pln )  i   ln 1|C|  2 1  1 T xCmxCx   T i  1 2 2,1i,mCm  1  T i i )x(d)x(d 1 由此可导出类别ω1 和ω2 间的判别界面为:没看懂  2 0mCm (Pln (Pln 1 1mCm  2 2  1      T 1 T 2 ) ) 1  1  2 1 1 2 1 xC)mm(   T  2
 两类问题且其类模式都是正态分布的实例 P(ω1)=P(ω2)=1/2,求其判别界面。 模式的均值向量 mi和协方差矩阵 Ci可用下式估计: m i C i iN   1 N i j 1  iN   1 N i j 1  x ij i  2,1 ( x ij  )( xm i ij  m i T ) i  2,1 其中 Ni 为类别ωi 中模式的数目,xij代表在第 i 个类别中的第 j 个模式。由上式可求出: m 1  1 4 )113( T m 2  1 4 )331( T C 1  C 2  C  1 16 3 1 1      1 3 1  1 1  3      , 1C    4    2 1  1  1  2 1 1  1 2      设P(ω1)=P(ω2)=1/2,因 C1=C2,则判别界面为:
)( xd 1  )( xd 2  ( 1  xCmm  ) T 1 2 x 2  8 x 1  8  8 x 3 1  mCm 1  1 T 1 2 04   1 2 mCm 1  T 2 2  均值和协方差矩阵的估计量定义 设模式的类概率密度函数为 p(x),则其均值向量定义为: )x(Em   x dx)x(xp 其中,x = (x1, x2, …, xn)T,m = (m1, m2, …, mn)T。 若以样本的平均值作为均值向量的近似值,则均值估计量 mˆ 为: 1mˆ  N N  1j  jx 其中 N 为样本的数目。
协方差矩阵为: c 11 c 21  c       C  1n c 12 c 22  c 2n    其每个元素 clk定义为: c n1 c n2  c nn       c lk     l  )}mx)(mx{(E   k  l    k k l l dx)x,x(p)mx)(mx( k l k dx l k 其中,xl、xk和 ml、mk 分别为 x 和 m 的第 l 和 k 个分量。 协方差矩阵写成向量形式为: xx{E})mx)(mx{(EC     T T }  mm T 协方差矩阵的估计量(当 N>>1 时)为: 1Cˆ  N N  1k  x( k  x)(mˆ k  T )mˆ 这里,样本模式总体为{ x1, x2, …, xk, …, xN}。因为计算估计量时没有真实的均值向量 m 可用, 只能用均值向量的估计量 mˆ 来代替,会存在偏差。  均值和协方差矩阵估计量的迭代运算形式 假设已经计算了 N 个样本的均值估计量,若再加上一个样本,其新的估计量 )1N(mˆ  为: )1N(mˆ   1 1N  1N   1j  x j  1 1N     N  1j  x j  x 1N     1 1N  x)N(mˆN[  ] 1N  其中 )N(mˆ 为从 N 个样本计算得到的估计量。迭代的第一步应取 )1(mˆ  。 1x 协方差矩阵估计量的迭代运算与上述相似。取 )N(Cˆ 表示 N 个样本时的估计量为: )N(Cˆ 1 N 加入一个样本,则:  N  1j  xx j T j  )N(mˆ)N(mˆ T
分享到:
收藏