logo资料库

模式识别》实验报告-贝叶斯分类.doc

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
一、实验原理
二、实验步骤
三、实验结果及分析
模式识别实验报告 西安交通大学 高海南 《模式识别》实验报告 ---最小错误率贝叶斯决策分类 一、实验原理 对于具有多个特征参数的样本(如本实验的 iris 数据样本有 4 d  个参数), 其正态分布的概率密度函数可定义为 p x ( )  1 d 2 (2 )  1 2  exp     1 2 ( x μ )    1 ( x μ )  T    式中, x 2, x x 1   ,  是 d 维行向量, , d x μ        d  是 d 维行向量, 是 d d ,   , , 1 2 维协方差矩阵, 1 是  的逆矩阵,  是  的行列式。 本实验我们采用最小错误率的贝叶斯决策,使用如下的函数作为判别函数 g i x ( )  p ( x | ),   i P ) ( i i  1,2,3 (3 个类别) 其中 ( )iP  为类别 i发生的先验概率, ( p x )i | 为类别 i的类条件概率密度函数。 由其判决规则,如果使 ( ) gx g i x 对一切 j ( ) j i 成立,则将 x 归为 i 类。 我 们 根 据 假 设 : 类 别 i ,i=1,2, … …,N 的 类 条 件 概 率 密 度 函 数 ( p x )i | , i=1,2,……,N 服从正态分布,即有 ( p x )i | ~ ( N μ i , ) i ,那么上式就可以写为 P x ( )  g i (2 )  对上式右端取对数,可得 ( )  i d 2  exp     1 2 1 2 ( x - μ )   1 ( x - μ ) T ,    i  1,2,3 g i x ( )   1 2 ( x - μ )   i i 1 ( x - μ ) i T  ln ( ) P  i  1 2 ln   i d 2 ln(2 )  上式中的第二项与样本所属类别无关,将其从判别函数中消去,不会改变分类结 果。则判别函数 ( ) ig x 可简化为以下形式 g i x ( )   1 2 ( x - μ )   i i 1 ( x - μ ) i T  ln ( ) P  i  1 2 ln  i 1
模式识别实验报告 西安交通大学 高海南 二、实验步骤 (1)从 Iris.txt 文件中读取估计参数用的样本,每一类样本抽出前 40 个,分别 求其均值,公式如下  i μ  1 N i  i x  x  i i  1,2,3 clear % 原始数据导入 iris = load('C:\MATLAB7\work\模式识别 \iris.txt'); N=40;%每组取 N=40 个样本 %求第一类样本均值 for i = 1:N for j = 1:4 w1(i,j) = iris(i,j+1); end end sumx1 = sum(w1,1); for i=1:4 meanx1(1,i)=sumx1(1,i)/N; end %求第二类样本均值 for i = 1:N for j = 1:4 w2(i,j) = iris(i+50,j+1); end end sumx2 = sum(w2,1); for i=1:4 meanx2(1,i)=sumx2(1,i)/N; end %求第三类样本均值 for i = 1:N for j = 1:4 w3(i,j) = iris(i+100,j+1); end end sumx3 = sum(w3,1); for i=1:4 meanx3(1,i)=sumx3(1,i)/N; end (2)求每一类样本的协方差矩阵、逆矩阵 1  以及协方差矩阵的行列式 i , i 协方差矩阵计算公式如下 i  jk  N i N 1   1 1  l i ( x lj    i j )( x lk    i k ) , j k  1,2,3,4 其中 ljx 代表 i类的第 l 个样本,第 j 个特征值;  代表 i类的 iN 个样品第 j 个特征的平均值 j i lkx 代表 i类的第 l 个样品,第 k 个特征值; iw k 代表 i类的 iN 个样品第 k 个特征的平均值。 2
模式识别实验报告 西安交通大学 高海南 %求第一类样本协方差矩阵 z1(4,4) = 0; var1(4,4) = 0; for i=1:4 for j=1:4 for k=1:N z1(i,j)=z1(i,j)+(w1(k,i)- meanx1(1,i))*(w1(k,j)-meanx1(1,j)); end var1(i,j) = z1(i,j) / (N-1); end end %求第二类样本协方差矩阵 z2(4,4) = 0 ; var2(4,4) = 0; for i=1:4 for j=1:4 for k=1:N z2(i,j)=z2(i,j)+ (w2(k,i)-meanx2(1,i))*(w2(k,j)-meanx2( 1,j)); end ar2(i,j) = z2(i,j) / (N-1); end end %求第三类样本协方差矩阵 z3(4,4) = 0 ; var3(4,4) = 0; for i=1:4 for j=1:4 for k=1:N z3(i,j)=z3(i,j)+(w3(k,i)- meanx3(1,i))*(w3(k,j)-meanx3(1,j)); end var3(i,j) = z3(i,j) /( N-1); end end %求各类的协方差矩阵逆矩阵及行列式 var1_inv = [];var1_det = []; var2_inv = [];var2_det = []; var3_inv = [];var3_det = []; var1_inv = inv(var1) var2_inv = inv(var2) var3_inv = inv(var3) var1_det = det(var1) var2_det = det(var2) var3_det = det(var3) (3)对三个类别,分别取每组剩下的 10 个样本,每两组进行分类。由于每一类 样本都相等,且每一类选取用作训练的样本也相等,在每两组进行分类时,待分 类样本的类先验概率 ( iP   。将各个样本代入判别函数 ) 0.5 1 2 gx 根据判决规则,如果使 ( ) x ( )   ( x - μ g i g i )   i i 1 ( x - μ ) i T  ln ( ) P  i  1 2 ln  i x 对一切 j ( ) j i 成立,则将 x 归为 i 类。 若取第一类后 10 个数据和第二类进行分类,代码如下 M=10; for i = 1:M for j = 1:4 test(i,j) = iris(i+50,j+1); % 取测试数据 end end t1=0;t2=0;t3=0; for i = 1:M x=test(i,1);y=test(i,2); 3
模式识别实验报告 西安交通大学 高海南 z=test(i,3);h=test(i,4); g1 = (-0.5)*([x,y,z,h]-meanx1)*var1_inv*([x,y,z,h]'-meanx1') - 0.5*log(abs(var1_det)) + log(p1); g2 = (-0.5)*([x,y,z,h]-meanx2)*var2_inv*([x,y,z,h]'-meanx2') - 0.5*log(abs(var2_det)) + log(p2); if g1>g2 t1=t1+1 %若 g1>g2,则属于第一类,否则属于第二类,并统计属于每一类的个数 else end t2=t2+1 end 同理第二类和第三类、第一类和第三类可进行分类。 三、实验结果及分析 (1)取第一类样本的后 10 个数据,按 1 、 2 分类,由 t1=10 可知,此 10 个 数据属于 1 ,分类正确;同理,按 1 、 3 分类,由 t1=10 可知,此 10 个数据 属于 1 ,分类正确。 (2)取第二类样本的后 10 个数据,按 1 、 2 分类,由 t2=10 可知,此 10 个 数据属于 2 ,分类正确;同理,按 2 、 3 分类,由 t2=10 可知,此 10 个数据 属于 2 ,分类正确。 (3)取第三类样本的后 10 个数据,按 1 、 3 分类,由 t3=10 可知,此 10 个 数据属于 2 ,分类正确;同理,按 2 、 3 分类,由 t3=10 可知,此 10 个数据 属于 3 ,分类正确。 (4)表 1 为 1 、 2 、 3 的样本类的均值。 表 1 三类样本均值 特 征 类 别 x1 x2 1 类 2 类 3 类 5.0375 3.4525 6.01 6.6225 2.78 2.96 x3 1.46 4.3175 5.6075 x4 0.235 1.35 1.99 由上表可知,对于 1 、 2 、 3 三个类样本,它们的第二个特征均值 x2 相 4
模式识别实验报告 西安交通大学 高海南 差不大,对于分类取得作用不如其他 3 个特征作用大,因此我们略去第二个特征, 在三维坐标空间画出降为 3 维主特征的 3 类样本点的空间分布,如图 1 所示 图 1 去掉第二维特征的三类样本空间位置 上图中,“*”为 1 类,“+”为 2 类,“□”为 3 类,显然 1 类和 2 类以 及 3 类特征差异比较明显,而 2 类与 3 类差异较小,对于位于 2 、 3 类类间 分解面附近的样本,使用最小错误率贝叶斯决策时,可能会出现错分情况。在实 验中,我们对 2 类 50 个样本分类,结果为 t2 =48 ,t3 =2,错分 2 个到 3 类; 对 3 类 50 个样本分类,结果为 t2 =0 ,t3 =50,分类正确。 附:iris 数据 5
模式识别实验报告 西安交通大学 高海南 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 5.1 3.5 1.4 0.2 4.9 3.0 1.4 0.2 4.7 3.2 1.3 0.2 4.6 3.1 1.5 0.2 5.0 3.6 1.4 0.2 5.4 3.9 1.7 0.4 4.6 3.4 1.4 0.3 5.0 3.4 1.5 0.2 4.4 2.9 1.4 0.2 4.9 3.1 1.5 0.1 5.4 3.7 1.5 0.2 4.8 3.4 1.6 0.2 4.8 3.0 1.4 0.1 4.3 3.0 1.1 0.1 5.8 4.0 1.2 0.2 5.7 4.4 1.5 0.4 5.4 3.9 1.3 0.4 5.1 3.5 1.4 0.3 5.7 3.8 1.7 0.3 5.1 3.8 1.5 0.3 5.4 3.4 1.7 0.2 5.1 3.7 1.5 0.4 4.6 3.6 1.0 0.2 5.1 3.3 1.7 0.5 4.8 3.4 1.9 0.2 5.0 3.0 1.6 0.2 5.0 3.4 1.6 0.4 5.2 3.5 1.5 0.2 5.2 3.4 1.4 0.2 4.7 3.2 1.6 0.2 4.8 3.1 1.6 0.2 5.4 3.4 1.5 0.4 5.2 4.1 1.5 0.1 5.5 4.2 1.4 0.2 4.9 3.1 1.5 0.2 5.0 3.2 1.2 0.2 5.5 3.5 1.3 0.2 4.9 3.6 1.4 0.1 4.4 3.0 1.3 0.2 5.1 3.4 1.5 0.2 5.0 3.5 1.3 0.3 4.5 2.3 1.3 0.3 4.4 3.2 1.3 0.2 5.0 3.5 1.6 0.6 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 5.1 3.8 1.9 0.4 4.8 3.0 1.4 0.3 5.1 3.8 1.6 0.2 4.6 3.2 1.4 0.2 5.3 3.7 1.5 0.2 5.0 3.3 1.4 0.2 7.0 3.2 4.7 1.4 6.4 3.2 4.5 1.5 6.9 3.1 4.9 1.5 5.5 2.3 4.0 1.3 6.5 2.8 4.6 1.5 5.7 2.8 4.5 1.3 6.3 3.3 4.7 1.6 4.9 2.4 3.3 1.0 6.6 2.9 4.6 1.3 5.2 2.7 3.9 1.4 5.0 2.0 3.5 1.0 5.9 3.0 4.2 1.5 6.0 2.2 4.0 1.0 6.1 2.9 4.7 1.4 5.6 2.9 3.6 1.3 6.7 3.1 4.4 1.4 5.6 3.0 4.5 1.5 5.8 2.7 4.1 1.0 6.2 2.2 4.5 1.5 5.6 2.5 3.9 1.1 5.9 3.2 4.8 1.8 6.1 2.8 4.0 1.3 6.3 2.5 4.9 1.5 6.1 2.8 4.7 1.2 6.4 2.9 4.3 1.3 6.6 3.0 4.4 1.4 6.8 2.8 4.8 1.4 6.7 3.0 5.0 1.7 6.0 2.9 4.5 1.5 5.7 2.6 3.5 1.0 5.5 2.4 3.8 1.1 5.5 2.4 3.7 1.0 5.8 2.7 3.9 1.2 6.0 2.7 5.1 1.6 5.4 3.0 4.5 1.5 6.0 3.4 4.5 1.6 6.7 3.1 4.7 1.5 6.3 2.3 4.4 1.3 5.6 3 4.1 1.3 89 5.5 2.5 4.0 1.3 90 5.5 2.6 4.4 1.2 91 6.1 3.0 4.6 1.4 92 5.8 2.6 4.0 1.2 93 5.0 2.3 3.3 1.0 94 5.6 2.7 4.2 1.3 95 5.7 3.0 4.2 1.2 96 5.7 2.9 4.2 1.3 97 6.2 2.9 4.3 1.3 98 99 5.1 2.5 3.0 1.1 100 5.7 2.8 4.1 1.3 101 6.3 3.3 6.0 2.5 102 5.8 2.7 5.1 1.9 103 7.1 3.0 5.9 2.1 104 6.3 2.9 5.6 1.8 105 6.5 3.0 5.8 2.2 106 7.6 3.0 6.6 2.1 107 4.9 2.5 4.5 1.7 108 7.3 2.9 6.3 1.8 109 6.7 2.5 5.8 1.8 110 7.2 3.6 6.1 2.5 111 6.5 3.2 5.1 2.0 112 6.4 2.7 5.3 1.9 113 6.8 3.0 5.5 2.1 114 5.7 2.5 5.0 2.0 115 5.8 2.8 5.1 2.4 116 6.4 3.2 5.3 2.3 117 6.5 3.0 5.5 1.8 118 7.7 3.8 6.7 2.2 119 7.7 2.6 6.9 2.3 120 6.0 2.2 5.0 1.5 121 6.9 3.2 5.7 2.3 122 5.6 2.8 4.9 2.0 123 7.7 2.8 6.7 2.0 124 6.3 2.7 4.9 1.8 125 6.7 3.3 5.7 2.1 126 7.2 3.2 6.0 1.8 127 6.2 2.8 4.8 1.8 128 6.1 3.0 4.9 1.8 129 6.4 2.8 5.6 2.1 130 7.2 3.0 5.8 1.6 131 7.4 2.8 6.1 1.9 132 7.9 3.8 6.4 2.0 6
模式识别实验报告 西安交通大学 高海南 133 6.4 2.8 5.6 2.2 134 6.3 2.8 5.1 1.5 135 6.1 2.6 5.6 1.4 136 7.7 3.0 6.1 2.3 137 6.3 3.4 5.6 2.4 138 6.4 3.1 5.5 1.8 139 6.0 3.0 4.8 1.8 140 6.9 3.1 5.4 2.1 141 6.7 3.1 5.6 2.4 142 6.9 3.1 5.1 2.3 143 5.8 2.7 5.1 1.9 144 6.8 3.2 5.9 2.3 145 6.7 3.3 5.7 2.5 146 6.7 3 5.2 2.3 147 6.3 2.5 5 1.9 148 6.5 3 149 6.2 3.4 5.4 2.3 5.1 1.8 150 5.9 3 5.2 2 7
分享到:
收藏