模式识别实验一 (贝叶斯判别原理)
学院:
班级:
姓名:
一、实验目的
1. 通过实验了解贝叶斯判别的原理;
2. 熟悉多元类别问题的处理;
3. 通过不同方式选取数据、选取数目不同的数据样本、不同方法估计先验概率,
加深对该类问题的理解。
二、实验原理
2.1 最小错误概率贝叶斯决策
似然比
2.2 贝叶斯最小风险决策
似然比
2.3 neyman-pearson 判别准则
似然比
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
其在假设2下的概率密度(2),λ需满足:
(9)
最小化某个约束条件下的总风险,例如对一个特定的状态类别误判的次数不允许
超过某个限定值。然后计算总误判代价最小情况下,值为多少,从而对样本类
别进行判别。
三、实验过程
3.1 基本步骤
(1)数据样本集下载
本次实验使用数据 Iris,该数据是四维三类数据,判别类别时将其两两比较,转
化为二分类问题。鸢尾花种类我们标记为 1,2,3.每种类型 50 组数据。并将数据划
分为训练样本集与测试样本集。
(2)模型假设
我们发现该数据服从正态分布,多维正态分布的密度函数用如下公式表示:
( )
p x
1
(2 ) d
2
1
2
exp(
1
2
(
x
t
)
1
(
x
))
用训练数据样本中的均值向量,协方差矩阵代表该公式中的参数, 。
对于测试集,其条件概率 (
p x w 为
)i
(
p x w
i
)
1
(2 ) d
2
1
2
exp(
1
2
(
x
t
)
1
(
x
))
。
计算先验概率 (
)ip w 。
三类两两比较,判定样本属于哪一类。
(
p x w
i
(
p x w
j
)
)
or
(
p w
j
(
p wi
)
)
(3)实验结果分析
3.2 选取数据方式
(1)顺序选取训练样本,随机选取训练样本,对实验结果有何影响。
(2)训练样本选取的数目不同,对实验结果有何影响。
3.3 参数设定
(1)先验概率根据总数据集确定,该数据集中各类比例相同,均为 1/3。
(2)根据 neyman-pearson 准则确定,所以 (
p w
i
(
p w
,当 (
p x w
i
(
p x w
) =
)
j
时,x 属
)
)
j
于 wi 类。
下面以类别 1 与类别 2 分类为例:
似然比:
在本次实验中 l(x)表达式经过化简后为:
( )
l x
(
p x w
1
(
p x w
2
)
)
1
1
d
2
(2 )
1
(2 )
d
2
2
1
2
1
2
exp(
1
2
(
x
t
)
1
1
1
(
x
))
1
exp(
1
2
(
x
t
2
)
2
1
(
x
2
))
1
2
1
2
2
1
exp(
1
2
(
x
t
)
1
1
1
(
x
1
)+ (
1
2
x
t
2
)
2
1
(
x
2
))
代入判别式中对类别进行分类。因为本次实验数据量不大,判别误差本来就很小,
所以我们对的范围进行估计。
假设2下的概率密度(2)计算过程为:将 w2 类别所有训练样本代入 l(x)公式
中,统计或计算 l(x)的概率密度即为(2)。然后根据公式 9 计算的值。最后
在本次实验中,我们假设2 服从高斯分布,先计算出不同类别下 l(x)的值,
并求其均值,方差,得到的概率密度的分布图。同理在算出1 的分布图。
4.1 训练集不同划分对实验结果的影响(采用贝叶斯判别,且()
然后根据误差的情况,估计的大致范围。最后进行判别。
(3)代价因子选取。
四、结果分析
4.1.1 顺序选取每一类前 25 个数据作为训练样本,后 25 个作为测试样本。
仿真截图如下:
()=1)
将判别结果与实际类别相比较,75 个测试样本中有 2 个分类错误,错误率为 0.026。
4.1.2 随机选取每一类前 25 个数据作为训练样本,后 25 个作为测试样本。
仿真截图如下:
将判别结果与实际类别相比较,75 个测试样本中有 3 个分类错误,错误率为 0.04。
4.1.3 每一类随机选取前 10,15,20,25,30,35,40 数据作为训练样本,剩余数据作为
测试样本。
仿真截图如下:
4.1.4 每一类随机选取不同数量的数据作为训练样本,全部数据作为测试样本。
仿真截图如下:
分析:可以看出顺序或者随机选取训练样本集对最终的结果影响不大,但是训练
样本选取的个数对最终分类准确率有着一定的影响。训练样本数目越多,其准确
率会相对增加。
4.2 先验概率不一样的选取对实验结果的影响(随机选取每一类不同数目的数据
作为测试样本,用全部数据当测试样本)
4.2.1 因为每一类比例相等,所以 ()
()=1,当 (
仿真截图如下:
p x w
i
(
p x w
j
时,x 属于 wi 类。
1
)
)
4.2.2 根据 neyman-pearson 准则确定的范围
(1)以 1,2 类别分类为例:
将 w1 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(1)。
其分布图如图 1 所示。均值 9.154546e+35。
图 1
将 w2 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(2)
其分布图如图 2 所示。均值 3.359066e-29。
所以大概推测判别类别是否是 1 或者 2 类别的取值 1 到 10^6 左右,可以保证
准确率在 98.7%左右。
仿真验证:
图 2
(2)以 2,3 类别分类为例:
将 w2 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(2)。
其分布图如图 3 所示。均值 2.790514e+05。
图 3
将 w3 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(3)
其分布图如图 4 所示。均值 4.429610e-02。
所以大概推测判别类别是否是 2 或者 3 类别的取值 1 到 7 左右,可以保证准确
率在 98.0%左右。
仿真验证:
图 4
(3)以 1,3 类别分类为例:
将 w1 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(11)。
其分布图如图 5 所示。均值 2.705788e+53。
图 5
将 w3 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(33)
其分布图如图 6 所示。均值 4.971191e-95。
所以大概推测判别类别是否是 1 或者 3 类别的取值 1 到 10^25 左右,可以保证
准确率在 98.5%左右。
仿真验证:
图 6
分析:通过求解概率密度,我们可以发现类别 1 与类别 2,3 差距比较大,类别 2,3
相对来说相似度高一些。不一样的取值,导致不一样的判别准确度。通过计算
我们给出了几个的取值范围。
4.3 代价因子选取对实验结果的影响(随机选取每一类不同数目的数据作为测试
样本,用全部数据当测试样本)
按各类名贵程度第一类>第二类>第三类。
4.3.1 以商家的角度将代价因子设为:
L12=4,L21=1,L13=6,L31=1,L23=2,L32=1,L11=L22=L33=0
要判定为第一类,要求;