3.5 Fisher 分类器(Fisher Linear Discriminant)
Fisher 判别法是历史上最早提出的判别方法之一,其基本思想是
将 n 类 m 维数据集尽可能地投影到一个方向(一条直线),使得类与
类之间尽可能分开。从形式上看,该方法就是所谓的一种降维处理方
法。为简单起见,我们以两类问题1 和2 的分类来说明 Fisher 判别法
的原理,如图 3.4 所示。
设数据阵为 XRNm,1 共有 N1 个样本,2 共有 N2 个样本,N=
N1+N2。两个类别在输入空间的均值向量为
xp2
最不利投影方向
2μ
2 类
1 类
1μ
判为2
最佳投影方向
*w
判为1
0
xp1
图 3.4, Fisher 判别法几何原理示意图
59
m
R
p
μ
1
μ
2
1
N
1
1
N
2
p
x
1
x
2
p
x
x
m
R
p
)37.3(
设有一个投影方向
w
, 2
ww
1
,
,
w
m
T
m
R
,这两个均值向量
在该方向的投影为
~
μ
1
T
μw
1
1
N
1
1
N
2
x
p
T
xw
1
xw
2
T
1
R
p
1
R
p
~
μ
2
T
μw
2
p
x
在w 方向,两均值之差为
T
μw
1
~
μ
2
~
μ
1
μ
2
类似地,样本总均值向量在该方向的投影为
~
μwμ
T
1
N
T
N
xw
1
p
1
R
p
B
2
~
μ
~
μ
~
μ
2
SS
~
μ
1
定义类间散度(Between-class scatter)平方和 SSB 为
2
~
μ
1
j
μw
μμ
N
N
1
T
μwμw
N
1
1
T
w
μμ
μ
N
1
1
1
wSw
μw
N
N
2
T
μ
μ
2
2
N
T
T
2
2
T
T
2
j
j
2
2
B
60
)38.3(
)39.3(
)40.3(
)41.3(
~
μ
2
T
wμ
2
其中
S
B
μ
1
μ
j
N
1
2
1
j
N
μμ
1
μμ
j
μ
2
N
2
μμ
2
μ
T
μ
T
μ
T
j
定义类j 的类内散度(Within-class scatter)平方和为
SS
Wj
Np
T
w
x
~
μ
j
p
j
2
Np
T
w
x
p
μw
T
2
j
j
两个类的总的类内散度误差平方和为
SS
W
SS
wj
2
1
j
Np
T
w
x
p
μw
T
2
j
j
x
p
μ
j
x
p
μ
j
T
j
w
2
1
j
T
w
2
1
Np
j
wSw
T
W
其中,
S
W
2
1
Np
j
x
p
μ
j
x
p
μ
j
T
j
)42.3(
)43.3(
)44.3(
)45.3(
我们的目的是使类间散度平方和 SSB 与类内散度平方和 SSw 的比
值为最大,即
max
J
w
SS
B
SS
W
T
wSw
T
wSw
B
W
61
)46.3(
xp2
1 类
2 类
2μ
1μ
BS
2
T
1 μ
μw
0
~
T
μwμ
1
1
~
μ
2
T
μw
2
图 3.5a, Fisher 判别法—类间散度平方和(分子)的几何意义
w
xp1
w
xp2
1μ
1 类
2 类
2μ
0
p
1
xw
T
p
1
μ
p
2
xw
T
p
2
μ
xp1
图 3.5b, Fisher 判别法—类内散度平方和(分母)的几何意义
62
图 3.5 给出了类间散度平方和 SB 与类内散度平方和 SE 的几何意
义。根据图 3.5a,类间散度平方和 SB 的另一种表示方式为
SS
~
μ
1
B
T
μw
1
~
2
μ
2
μ
2
这里
2
T
T
μwμw
2
ww
μ
1
1
μ
2
T
T
S
B
μ
1
μ
2
μ
1
μ
2
T
w
S
B
)47.3(
)48.3(
可以证明,(3.48)与(3.42)只相差一个系数。简单证明如下:
由于
μ
1
N
x
1
p
x
p
x
2
p
x
p
μ
N
11
μ
22
N
N
)49.3(
由(3.42)得
2
N
μ
1
μμ
1
μ
N
11
N
μ
N
11
T
μ
μ
22
N
μ
22
μ
22
μ
2
μ
N
11
μμ
2
N
N
μ
N
11
N
N
μ
2
2
NN
1
1
2
N
μ
2
μ
T
T
μ
22
T
μμ
1
2
T
S
B
N
1
μ
1
N
1
μ
1
μ
2
2
N
2
NN
21
2
N
NN
21
N
N
N
μ
1
μ
1
μ
2
μ
2
μ
1
μ
2
μ
1
μ
2
T
μ
1
T
)50.3(
这说明,(3.48)与(3.42)只相差一个与样本数有关的常数。
63
根据图 3.5b,类内散度平方和 SSE 的另一种表示方式为
SS
E
p
p
T
x
2
1
p
x
1
xw
1
x
1
p
wSw
w
x
T
T
W
x
2
p
2
p
2
μ
1
p
2
x
T
xw
2
p
2
μ
2
p
xμ
1
p
μ
1
T
p
x
x
2
p
xμ
2
p
μ
2
p
2
w
)51.3(
这正是(3.44)。
下面分析怎样确定最佳投影方向w 。
显然, SB、SW 均为对称阵,于是,
1
2
1
=
T
WS ,且 SW=
2
WS
v
1
2
S
W
1
2
S
W
1
2
。令
S
W
v
1
w
2
,则
S
W
,代入(3.46),得
max
J
w
T
wSw
T
wSw
B
W
1
2
v
1
SS
2
WB
T
vv
)52.3(
w
T
T
Sv
W
使(3.52)为最大,等价于求最大特征值
T
S
max
W
1
2
SS
WB
1
2
对应的特征向量。即
max
S
W
S
W
1
1
wS
B
B
S
max
w
64
)53.3(
我们知道,
wS
B
μ
1
μ
1
μ
1
μ
1
T
μ
2
T
2
~
μ
2
μ
w
μ
1
2
T
μ
wμwμ
2
1
~
μ
μ
2
1
μ
2
于是,(3.53)可写成
2
1
μ
1
S
W
μ
这说明,w 得方向与
S
W
μ
w
S
W
μ
1
2
1
max
1
w
μ
1
μ
2
的方向一致,即
)54.3(
)55.3(
)56.3(
因此,在应用过程中,我们往往不必求出类间散度阵 BS 。
w 与输入空间维数相等,或者说,投影方向过原点。设分类阈值
为,则判别公式为
x
1
x
2
不定
如果
如果
如果
T
xw
T
xw
T
xw
确定的一些经验公式为
(1) 取两个类别均值在w 方向投影的简单平均
T
μw
1 μ
2
2
(2) 考虑样本数的两个类别均值在w 方向投影的平均
65
)57.3(
)58.3(
或
w
NT
μ
12
N
(3) 考虑类方差的两个类别均值在w 方向投影的平均
w
NT
μ
11
N
μ
22
N
μ
N
21
或
T
w
~
~
μ
μ
12
21
~
~
1
2
T
w
~
~
μ
μ
11
21
~
~
1
2
)59.3(
)60.3(
)61.3(
)62.3(
这里, 1
~ 分别为两个类别在w 方向投影的均方差。
~ 、 2
当然,当类内散度阵 WS 不可逆时,Fisher 判别法失效。
例 5 在研究地震预报中,遇到沙基液化问题,选择了下列 7 个有关的
因素:
x1:震级,
x2:震中距(公里),
x3:水深(米),
x4:土深(米)
x5:贯入值,
x6:最大地面加速度(10-2N/m2),
66