logo资料库

模式识别第一次实验贝叶斯原理.docx

第1页 / 共14页
第2页 / 共14页
第3页 / 共14页
第4页 / 共14页
第5页 / 共14页
第6页 / 共14页
第7页 / 共14页
第8页 / 共14页
资料共14页,剩余部分请下载后查看
模式识别实验一 (贝叶斯判别原理) 学院: 班级: 姓名:
一、实验目的 1. 通过实验了解贝叶斯判别的原理; 2. 熟悉多元类别问题的处理; 3. 通过不同方式选取数据、选取数目不同的数据样本、不同方法估计先验概率, 加深对该类问题的理解。 二、实验原理 2.1 最小错误概率贝叶斯决策 似然比 2.2 贝叶斯最小风险决策 似然比 2.3 neyman-pearson 判别准则 似然比 (1) (2) (3) (4) (5) (6) (7) (8) 其在假设2下的概率密度(2),λ需满足: (9) 最小化某个约束条件下的总风险,例如对一个特定的状态类别误判的次数不允许
超过某个限定值。然后计算总误判代价最小情况下,值为多少,从而对样本类 别进行判别。 三、实验过程 3.1 基本步骤 (1)数据样本集下载 本次实验使用数据 Iris,该数据是四维三类数据,判别类别时将其两两比较,转 化为二分类问题。鸢尾花种类我们标记为 1,2,3.每种类型 50 组数据。并将数据划 分为训练样本集与测试样本集。 (2)模型假设 我们发现该数据服从正态分布,多维正态分布的密度函数用如下公式表示: ( ) p x  1 (2 ) d  2 1 2  exp(  1 2 ( x  t )    1 ( x  ))  用训练数据样本中的均值向量,协方差矩阵代表该公式中的参数, 。 对于测试集,其条件概率 ( p x w 为 )i ( p x w i )  1 (2 ) d  2 1 2  exp(  1 2 ( x  t )  1   ( x  ))  。 计算先验概率 ( )ip w 。 三类两两比较,判定样本属于哪一类。 ( p x w i ( p x w j ) )  or  ( p w j ( p wi ) ) (3)实验结果分析 3.2 选取数据方式 (1)顺序选取训练样本,随机选取训练样本,对实验结果有何影响。 (2)训练样本选取的数目不同,对实验结果有何影响。 3.3 参数设定 (1)先验概率根据总数据集确定,该数据集中各类比例相同,均为 1/3。 (2)根据 neyman-pearson 准则确定,所以 ( p w i ( p w ,当 ( p x w i ( p x w ) = ) j  时,x 属 ) ) j 于 wi 类。 下面以类别 1 与类别 2 分类为例: 似然比: 在本次实验中 l(x)表达式经过化简后为:
( ) l x  ( p x w 1 ( p x w 2 ) )  1  1 d 2 (2 )  1 (2 )  d 2  2 1 2 1 2 exp(  1 2 ( x  t )  1  1  1 ( x  ))  1 exp(  1 2 ( x  t  2 )  2  1 ( x   2 ))  1 2 1 2  2  1 exp(  1 2 ( x  t )  1  1  1 ( x   1 )+ ( 1 2 x  t  2 )  2  1 ( x   2 )) 代入判别式中对类别进行分类。因为本次实验数据量不大,判别误差本来就很小, 所以我们对的范围进行估计。 假设2下的概率密度(2)计算过程为:将 w2 类别所有训练样本代入 l(x)公式 中,统计或计算 l(x)的概率密度即为(2)。然后根据公式 9 计算的值。最后 在本次实验中,我们假设2 服从高斯分布,先计算出不同类别下 l(x)的值, 并求其均值,方差,得到的概率密度的分布图。同理在算出1 的分布图。 4.1 训练集不同划分对实验结果的影响(采用贝叶斯判别,且() 然后根据误差的情况,估计的大致范围。最后进行判别。 (3)代价因子选取。 四、结果分析 4.1.1 顺序选取每一类前 25 个数据作为训练样本,后 25 个作为测试样本。 仿真截图如下: ()=1) 将判别结果与实际类别相比较,75 个测试样本中有 2 个分类错误,错误率为 0.026。 4.1.2 随机选取每一类前 25 个数据作为训练样本,后 25 个作为测试样本。 仿真截图如下: 将判别结果与实际类别相比较,75 个测试样本中有 3 个分类错误,错误率为 0.04。
4.1.3 每一类随机选取前 10,15,20,25,30,35,40 数据作为训练样本,剩余数据作为 测试样本。 仿真截图如下: 4.1.4 每一类随机选取不同数量的数据作为训练样本,全部数据作为测试样本。 仿真截图如下: 分析:可以看出顺序或者随机选取训练样本集对最终的结果影响不大,但是训练 样本选取的个数对最终分类准确率有着一定的影响。训练样本数目越多,其准确 率会相对增加。 4.2 先验概率不一样的选取对实验结果的影响(随机选取每一类不同数目的数据 作为测试样本,用全部数据当测试样本) 4.2.1 因为每一类比例相等,所以 () ()=1,当 ( 仿真截图如下: p x w i ( p x w j  时,x 属于 wi 类。 1 ) ) 4.2.2 根据 neyman-pearson 准则确定的范围 (1)以 1,2 类别分类为例:
将 w1 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(1)。 其分布图如图 1 所示。均值 9.154546e+35。 图 1 将 w2 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(2) 其分布图如图 2 所示。均值 3.359066e-29。 所以大概推测判别类别是否是 1 或者 2 类别的取值 1 到 10^6 左右,可以保证 准确率在 98.7%左右。 仿真验证: 图 2 (2)以 2,3 类别分类为例: 将 w2 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(2)。 其分布图如图 3 所示。均值 2.790514e+05。
图 3 将 w3 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(3) 其分布图如图 4 所示。均值 4.429610e-02。 所以大概推测判别类别是否是 2 或者 3 类别的取值 1 到 7 左右,可以保证准确 率在 98.0%左右。 仿真验证: 图 4 (3)以 1,3 类别分类为例: 将 w1 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(11)。 其分布图如图 5 所示。均值 2.705788e+53。
图 5 将 w3 类别所有训练样本代入 l(x)公式中,统计或计算 l(x)的概率密度即为(33) 其分布图如图 6 所示。均值 4.971191e-95。 所以大概推测判别类别是否是 1 或者 3 类别的取值 1 到 10^25 左右,可以保证 准确率在 98.5%左右。 仿真验证: 图 6 分析:通过求解概率密度,我们可以发现类别 1 与类别 2,3 差距比较大,类别 2,3 相对来说相似度高一些。不一样的取值,导致不一样的判别准确度。通过计算 我们给出了几个的取值范围。 4.3 代价因子选取对实验结果的影响(随机选取每一类不同数目的数据作为测试 样本,用全部数据当测试样本) 按各类名贵程度第一类>第二类>第三类。 4.3.1 以商家的角度将代价因子设为: L12=4,L21=1,L13=6,L31=1,L23=2,L32=1,L11=L22=L33=0 要判定为第一类,要求;
分享到:
收藏