什么是模式:
• 广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或
是否相似,都可以称之为模式。
• 模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时
间和空间分布的信息。
• 模式的直观特性:
– 可观察性
– 可区分性
相似性
机器学习:
研究如何构造理论、算法和计算机系统,让机器通过从数据中学习后可以进行如下工作:
分类和识别事物、推理决策、预测未来等。
贝叶斯判别
根据概率判别规则,有:
若 P(ω1 | x) > P(ω2 | x),则
若 P(ω1 | x) < P(ω2 | x),则
x
1
x
2
由贝叶斯定理,后验概率 P(ωi | x)可由类别ωi的先验概率 P(ωi)和 x 的条件概率密度 p(x | ωi)
来计算,即:
(P
i
)x|
|x(p
)
i
(P)
i
)x(p
|x(p
2
|x(p
i
(P)
)
i
(P)
i
i
1i
)
这里 p(x | ωi)也称为似然函数。将该式代入上述判别式,有:
若 p(x | ω1)P(ω1) > p(x | ω2)P(ω2),则
若 p(x | ω1)P(ω1) < p(x | ω2)P(ω2),则
x
1
x
2
l
12
)x(
若
|x(p
|x(p
1
2
)
)
(P
(P
2
1
)
)
,则
x ,若
1
)x(l
12
|x(p
|x(p
)
1
)
2
(P
(P
)
2
)
1
,则
x
2
其中,l12 称为似然比,P(ω2)/P(ω1)=θ21 称为似然比的判决阈值,此判别称为贝叶斯判别。
贝叶斯判别计算实例
已知:P(ω1)=0.2,P(ω2)=0.8,
p(x=异常|ω1)=0.6,p(x=正常|ω1)=0.4,
p(x=异常|ω2)=0.1,p(x=正常|ω2)=0.9
利用贝叶斯公式,有:
P
(
1
|
x
异常
)
(
p x
(
p x
1
(
)
|
)
P
异常
1
)
(
p x
异常
(
p x
异常
(
)
)
P
1
0.6
1
|
异常
0.6 0.2
0.6 0.2 0.1 0.8
(
)
|
)
1
1
(
p x
异常
P
|
2
P
)
(
2
)
似然比:
l
12
p(x
p(x
异常
异常
|
|
1
2
)
)
0.6
0.1
6
判决阈值:
21
P(
P(
2
1
)
)
0.8
0.2
4
贝叶斯最小风险判别:
最小平均条件风险表达式
按贝叶斯公式,最小平均条件风险可写成:
)x(r
j
1
)x(p
M
1i
|x(pL
ij
)
i
(P)
i
因 1/p(x)为公共项,可舍去,因此可简化为:
)x(r
j
M
1i
|x(pL
ij
)
i
(P)
i
这也是贝叶斯分类器,只是它的判别方法不是按错误概率最小作为标准,而是按平均条
件风险作为标准。
两类(M=2)情况的贝叶斯最小风险判别
选 M=2,即全部的模式样本只有ω1 和ω2 两类,要求分类器将模式样本分到ω1 和ω2 两类
中,则平均风险可写成:
当分类器将 x 判别为ω1 时:
|x(pL)x(r
1
当分类器将 x 判别为ω2 时:
|x(pL)x(r
2
12
11
1
(P)
1
|x(pL)
21
2
(P)
2
)
1
(P)
1
|x(pL)
22
2
(P)
2
)
若 r1(x)Lii,有当
|x(p
|x(p
1
2
)
)
(P
(P
2
1
)
)
L
L
21
12
L
L
22
11
时,
x
1
该式左边为似然比:
l
12
|x(p
|x(p
1
2
)
)
右边为阈值:
L
L
11
故得两类模式的贝叶斯判别条件为:
)
2
)
1
L
21
L
12
(P
(P
21
22
(1) 若 l12(x)>θ21,则
x
1
x
2
(2) 若 l12(x)<θ21,则
(3) 若 l12(x)=θ21,则可做任意判别。
通常,当判别正确时,不失分,可选常数 L11=L22=0;判别错误时,可选 L12=L21=1,此时
)
2
21
)
1
(P
(P
。
两类(M=2)情况的贝叶斯最小风险判别实例
如图所示为一信号通过一受噪声干扰的信道。
信道输入信号为 0 或 1,噪声为高斯型,均值μ=0,方差为б2。
信道输出为 x,试求最优的判别规则,以区分 x 是 0 还是 1。
设送 0 为ω1 类,送 1 为ω2 类,从观察值 x 的基础上判别它是 0 还是 1。直观上可以看出,
若 x<0.5 应判为 0,x>0.5 应判为 1。用贝叶斯判别条件分析:设信号送 0 的先验概率为 P(0),
送 1 的先验概率为 P(1),L 的取值为:
a
1
0
L
a
2
L
12
0
L
1
2
21
这里 a1 和 a2分别对应于输入状态为 0 和 1 时的正确判别,L12对应于实际上是ω1 类但被判成
ω2 类(a2)时的代价,L21 对应于实际上是ω2 类但被判成ω1 类(a1)时的代价。正确判别时 L 取 0。
当输入信号为 0 时,受噪声为正态分布 N(0,б2)的干扰,其幅值大小的概率密度为:
(
xp
|
1
)
2
x
2
2
(
2
)1
x
2
2
e
1
e
2
1
2
1 2
x
e
2
2
当输入信号为 1 时:
(
xp
|
2
)
则似然比为:
l
12
p(x|
p(x|
)
1
)
2
若
12 l
21
1 2
x
,即 2
2
21
e
x
1
2
2
21
ln
,则
1x
,此时信号应是 0,即
x
1
2
2
ln
L
21
L
12
)1(
P
)0(
P
若取 L21=L12=1,P(1)=P(0),则 x<1/2 判为 0。
若无噪声干扰,即б2=0,则 x<1/2 判为 0。
多类(M 类)情况的贝叶斯最小风险判别
,2,1j),x(r
j
对于 M 类情况,若
i
L 可如下取值(仍按判对失分为 0,判错失分为 1 记):
j,M,
)x(r
i
,则
x 。
i
Lij
when
when
则条件平均风险可写成:
0
1
i
i
j
j
i
(P)
i
)
)x(r
j
M
|x(pL
ij
1i
|x(pL
j1
M
1i
|x(p)x(p
|x(p
1
(P)
1
)
|x(pL
jj
j
(P)
j
)
|x(pL
Mj
M
(P)
M
)
i
(P)
i
|x(p)
j
(P)
j
)
j
(P)
j
)
由
)x(r
i
)x(r
j
,有当
|x(p
i
(P)
i
)
|x(p
j
(P)
j
)
时,
x ,对应于判别
i
函数为:取
)x(d
i
,2,1i),
M,
,则对于全部
j 的值,若
i
i
i
|x(p
(P)
x 。
)x(d)x(d
i
M 种模式类别的多变量正态类密度函数
,则
i
j
具有 M 种模式类别的多变量正态类密度函数为:
|x(p
i
)
1
2/n
|C|
i
2/1
exp
1
2
)2(
,2,1i,)mx(C)mx(
T
1
i
i
i
M,
其中,每一类模式的分布密度都完全被其均值向量 mi 和协方差矩阵 Ci 所规定,其定义为:
i
i
i
)(
i
}{xEm
mxmxEC
i
{(
i
Ei{x}表示对类别属于ωi 的模型的数学期望。
在上述公式中,n 为模式向量的维数,|Ci|为矩阵 Ci 的行列式,协方差矩阵 Ci 是对称的正
定矩阵,其对角线上的元素 Ckk 是模式向量第 k 个元素的方差,非对角线上的元素 Cjk是 x 的
第 j 个分量 xj 和第 k 个分量 xk 的协方差。当 xj 和 xk 统计独立时,Cjk=0。当协方差矩阵的全部
非对角线上的元素都为零时,多变量正态类密度函数可简化为 n 个单变量正态类密度函数
的乘积。
T
})
已知类别ωi 的判别函数可写成如下形式:
,2,1i),
i
)x(d
i
|x(p
(P)
i
M,
对于正态密度函数,可取自然对数的形式以方便计算(因为自然对数是单调递增的,取
对数后不影响相应的分类性能),则有:
(Pln
|x(pln[
代入正态类密度函数,有:
)x(d
i
i
)]
i
,2,1i),
M,
)x(d
i
(Pln
)
i
)2ln(
1
2
ln
|C|
i
n
2
T
,2,1i),mx(C)mx(
1
i
i
i
M,
1
2
去掉与 i 无关的项(并不影响分类结果),有:
)x(d
i
(Pln
)
i
1
2
ln
1|C|
2
i
即为正态分布模式的贝叶斯判别函数。
两类问题且其类模式都是正态分布的情况
,2,1i),mx(C)mx(
T
1
i
i
i
M,
(1) 当
1 C
C 时,两类模式的正态分布为:p(x|ω1)表示为 N(m1, C1),p(x|ω2)表示为 N(m2,
2
1
(Pln
)x(d
1
C2),ω1 和ω2 两类的判别函数对应为:
1|C|
2
1|C|
2
1)
2
)x(d
2
(Pln
2
ln
)
1
2
)mx(C)mx(
1
1
1
T
1
)mx(C)mx(
2
1
2
T
2
ln
1
2
x0
x0
1
2
)x(d)x(d
1
2
(2) 当 C1=C2=C 时,有:
)x(d
i
1
)
(Pln
ln
i
2
1mCx
2
1
2
1
T
i
1|C|
2
1
xCm
T
i
1
T
xCx
1
2
2,1i,mCm
1
T
i
i
因 C 为对称矩阵,上式可简化为:
1
2
)x(d
i
(Pln
)
i
ln
1|C|
2
1
1
T
xCmxCx
T
i
1
2
2,1i,mCm
1
T
i
i
)x(d)x(d
1
由此可导出类别ω1 和ω2 间的判别界面为:没看懂
2
0mCm
(Pln
(Pln
1
1mCm
2
2
1
T
1
T
2
)
)
1
1
2
1
1
2
1
xC)mm(
T
2
两类问题且其类模式都是正态分布的实例
P(ω1)=P(ω2)=1/2,求其判别界面。
模式的均值向量 mi和协方差矩阵 Ci可用下式估计:
m
i
C
i
iN
1
N
i
j
1
iN
1
N
i
j
1
x
ij
i
2,1
(
x
ij
)(
xm
i
ij
m
i
T
)
i
2,1
其中 Ni 为类别ωi 中模式的数目,xij代表在第 i 个类别中的第 j 个模式。由上式可求出:
m
1
1
4
)113(
T
m
2
1
4
)331(
T
C
1
C
2
C
1
16
3
1
1
1
3
1
1
1
3
,
1C
4
2
1
1
1
2
1
1
1
2
设P(ω1)=P(ω2)=1/2,因 C1=C2,则判别界面为:
)(
xd
1
)(
xd
2
(
1
xCmm
)
T
1
2
x
2
8
x
1
8
8
x
3
1
mCm
1
1
T
1
2
04
1
2
mCm
1
T
2
2
均值和协方差矩阵的估计量定义
设模式的类概率密度函数为 p(x),则其均值向量定义为:
)x(Em
x
dx)x(xp
其中,x = (x1, x2, …, xn)T,m = (m1, m2, …, mn)T。
若以样本的平均值作为均值向量的近似值,则均值估计量 mˆ 为:
1mˆ
N
N
1j
jx
其中 N 为样本的数目。
协方差矩阵为:
c
11
c
21
c
C
1n
c
12
c
22
c
2n
其每个元素 clk定义为:
c
n1
c
n2
c
nn
c
lk
l
)}mx)(mx{(E
k
l
k
k
l
l
dx)x,x(p)mx)(mx(
k
l
k
dx
l
k
其中,xl、xk和 ml、mk 分别为 x 和 m 的第 l 和 k 个分量。
协方差矩阵写成向量形式为:
xx{E})mx)(mx{(EC
T
T
}
mm
T
协方差矩阵的估计量(当 N>>1 时)为:
1Cˆ
N
N
1k
x(
k
x)(mˆ
k
T
)mˆ
这里,样本模式总体为{ x1, x2, …, xk, …, xN}。因为计算估计量时没有真实的均值向量 m 可用,
只能用均值向量的估计量 mˆ 来代替,会存在偏差。
均值和协方差矩阵估计量的迭代运算形式
假设已经计算了 N 个样本的均值估计量,若再加上一个样本,其新的估计量
)1N(mˆ
为:
)1N(mˆ
1
1N
1N
1j
x
j
1
1N
N
1j
x
j
x
1N
1
1N
x)N(mˆN[
]
1N
其中
)N(mˆ
为从 N 个样本计算得到的估计量。迭代的第一步应取
)1(mˆ
。
1x
协方差矩阵估计量的迭代运算与上述相似。取
)N(Cˆ
表示 N 个样本时的估计量为:
)N(Cˆ
1
N
加入一个样本,则:
N
1j
xx
j
T
j
)N(mˆ)N(mˆ
T