实验一
用身高和/或体重数据进行性别分类
一、实验目的
1)用 Bayes 分类器解决实际问题,加深对 Bayes 分类器的理解与认识。
2)熟练掌握 Bayes 分类器的设计方法。
3)运用最大似然估计以及贝叶斯估计解决分布密度参数未知的样本。
二、实验内容
1)用 FAMALE.TXT 和 MALE.TXT 的数据作为训练样本集,建立 Bayes 分类器;
2)用测试样本数据 test2.TXT 对该分类器进行测试;
3)调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而
加深对所学内容的理解和感性认识。
三、实验步骤
1)应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态
分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误
率 Bayes 分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试
错误情况。在分类器设计时可以考察采用不同先验概率(如 0.5 对 0.5, 0.75 对 0.25,
0.9 对 0.1 等)进行实验,考察对决策规则和错误率的影响。
2)应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者
相关或不相关,在正态分布假设下估计概率密度,建立最小错误率 Bayes 分类器,
写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情
况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不
同先验概率(如 0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1 等)进行实验,考察对决策和
错误率的影响。
3)自行给出一个决策表,采用最小风险的 Bayes 决策重复上面的某个或全部实
验。
四、原理叙述、程序流程图及相应结果
(一)、实验一
1、原理
(1)最大似然估计估计分布密度函数
1
1
2
2
1
log
(
XP
k
i
|
)
1
2
log(
2
2
)
1
2
2
(
X
k
2
1
)
N
k
1
N
k
1
1
2
log
(
XP
k
i
|
)
log
(
XP
k
i
|
)
N
k
1
(1
2
X
k
1
)
0
N
k
1
[
1
2
2
(
X
2
)
1
k
2
2
2
0]
1
N
1
1
N
k
1
kX
2
1
2
2
(
kX
)
N
1
N
1k
(2)最小错误率 Bayes 分类器
1
1
2
(
)
(
)
xg
i
i
T
wxwxWx
x
T
i
i
i
0
1
i
(,
n
n
)
1
2
1
i
i
W
i
w
i
T
i
(
x
i
)
ln
1
2
i
ln
p
(
i
)
w
i
0
1
2
T
i
1
i
i
1
2
ln
ln
P
(
i
)
i
i
T
i
T
wxwxWx
i
T
max
j
1
mj
T
wxwxWx
0
j
j
0
i
x
)(
xg
i
2、具体步骤
用最大似然估计估计出各类别的均值、方差。
用已知样本参数,计算正态分布下最小错误率的贝叶斯决策,得到判别函数
g(X).
将待测样本集数据代入判别函数,判断其性别。
④将用贝叶斯决策得到的判断结果与正确值对比,计算错误率。
⑤采用不同的先验概率值,得到不同错误率,找到最小错误率下的先验概率值。
3. 程序流程图
4. 实验结果及分析
A. 只考虑身高的不同先验概率下男女判错统计表
由图可知:
对于测试样本 1 来说,在最小错误区间上,当女生先验概率为 0.32 时,判别错
误率最小为 2.86%。
对于测试样本 2 来说,在最小错误区间上,当女生先验概率为 0.14 时,判别错
误率最小为 4.67%。
B. 只考虑体重的不同先验概率下男女判错统计表
由图可知:
对于测试样本 1 来说,在最小错误区间上,当女生先验概率为 0.35 时,判别错
误率最小为 2.86%。
对于测试样本 2 来说,在最小错误区间上,当女生先验概率为 0.1 时,判别错误
率最小为 8.33%。
(二)、实验二
1、原理
(1)对于多元正态分布,其最大似然估计的结果为:
1
N
X
N
k
1
1k
N
1
N
1k
kX
x
)
(2)最小错误率 Bayes 分类器
、判别函数:
a、假设身高体重不相关
判别函数化简为:
(g
i
T
wxwxWx
1
2
i
)
n
W
i
w
i
w
i
0
i
i
)
(,
1
i
1
i
(
T
n
i
T
i
n
,
0
i
1
i
1
2
1
2
ln
ln
P
(
i
)
i
i
2
I
2
...
0
...
...
...
0
...
2
,只有方差,协方差为零
其中协方差矩阵
且讨论且协方差相等,以及协方差不等两种情况
若协方差相等
...
1
2
n
假设身高体重相关
判别函数可化简为:
(g
i
x
)
i
,
i
0
1
i
T
i
n
n
(,
T
wxwxWx
1
2
i
)
n
i
i
)
(
i
T
1
1
i
1
2
W
i
w
i
w
i
0
1
2
ln
ln
P
(
i
)
i
且讨论且协方差相等,以及协方差不等两种情况
若协方差相等
...
1
2
n
.决策规则
T
)(
xg
wxwxWx
i
i
T
max
j
1
mj
T
wxwxWx
T
i
0
j
i
j
0
i
x
2、具体步骤:
用最大似然估计估计出各类别的均值、方差。
用已知样本参数,计算正态分布下最小错误率的贝叶斯决策,分别计算身高体
重相关协方差相等,身高体重相关协方差不等,身高体重不相关协方差相等,身
高体重不相关协方差不相等这四种情况下的判别函数 g(X).
将待测样本集数据代入判别函数,判断其性别。
④将用贝叶斯决策得到的判断结果与正确值对比,计算错误率。
⑤采用不同的先验概率值,得到不同错误率,找到不同情况下最小错误率下的先
验概率值。
3、程序流程图
4、实验结果及分析
A) .身高体重相关协方差相等
由图可知:
对于测试样本 1 来说,在最小错误区间上,当女生先验概率为 0.52 时,判别错
误率最小为 0%。
对于测试样本 2 来说,在最小错误区间上,当女生先验概率为 0.14 时,判别错
误率最小为 5%。
B).身高体重相关协方差不等
由图可知:
对于测试样本 1 来说,在最小错误区间上,当女生先验概率为 0.32 时,判别错
误率最小为 2.86%。
对于测试样本 2 来说,在最小错误区间上,当女生先验概率为 0.14 时,判别错
误率最小为 4.67%。
C).身高体重不相关协方差相等
由图可知:
对于测试样本 1 来说,在最小错误区间上,当女生先验概率为 0.52 时,判别错
误率最小为 0%。
对于测试样本 2 来说,在最小错误区间上,当女生先验概率为 0.23 时,判别错
误率最小为 5%。
D) .身高体重不相关协方差不等