logo资料库

数理统计(孙海燕)大作业.docx

第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
资料共28页,剩余部分请下载后查看
摘要
1、引言
2、数据及符号说明
2.1 符号说明
2.2 样本数据的选取与整理
3、算法原理分析
3.1 马氏距离
3.2 高斯混合模型
3.3 主成分分析
3.4 线性判别分析
3.5 刀切法
4、数据处理分析
4.1 主成分分析
4.2 线性判别分析
4.3 高斯混合模型
4.4 刀切法算法比对
5、结论
参考文献
附录
数理统计大作业 摘要 鸢尾花数据集是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花 瓣长度,花瓣宽度 4 个属性预测鸢尾花卉属于三个种类中的哪一类。Fisher 于 1936 年发表鸢尾花数据集,并且于 1988 年开源了这组数据。鸢尾花数据是数理统计、 机器学习领域的经典问题,人们采用各种算法在这组数据上进行测试,并把测试 的结果作为对算法性能的衡量;主成分分析通过正交变换将一组可能存在相关性 的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。主成分分析 首先是由 Karl Pearson 于 1901 年提出的,直到现在主成分分析仍然是维度规约 领域的主流方法。线性判别分析也是 Fisher 发明的方法,相比于主成分分析,线 性判别分析考虑了数据的标签,从而在提取主成分降维的过程中能够同时兼顾放 大类间离差与缩小类内离差,在有标签的情况下能够得到比主成分分析好很多的 效果。混合高斯模型主要在聚类领域得到应用,与聚类中最简单的 k-均值方法相 比,混合高斯模型考虑了不同方向上方差的不同,而且考虑了不同维度之间的相 关性,具有更好的聚类效果。对于鸢尾花这样数值型的高维数据,我们采用主成 分分析和线性判别分析将之降维,这同时也是去噪的过程;然后利用高斯混合模 型,在极大似然估计意义下求模型参数;最后,利用刀切法(留一法)分析降维 程度及降维方法之间的差异。 关键词:鸢尾花数据集、主成分分析、线性判别分析、高斯混合分布、刀切法
数理统计大作业 目录 摘要........................................................................................................................I 1、引言................................................................................................................. 1 2、数据及符号说明............................................................................................. 2 2.1 符号说明................................................................................................ 2 2.2 样本数据的选取与整理........................................................................ 2 3、算法原理分析................................................................................................. 6 3.1 马氏距离................................................................................................ 7 3.2 高斯混合模型........................................................................................ 7 3.3 主成分分析............................................................................................ 8 3.4 线性判别分析........................................................................................ 9 3.5 刀切法...................................................................................................11 4、数据处理分析................................................................................................11 4.1 主成分分析...........................................................................................11 4.2 线性判别分析...................................................................................... 14 4.3 高斯混合模型...................................................................................... 16 4.4 刀切法算法比对.................................................................................. 19 5、结论............................................................................................................... 20 参考文献............................................................................................................. 21 附录..................................................................................................................... 22
北京航空航天大学数理统计大作业 1、引言 统计(机器学习)算法需要作用于数据,而数据的本质则决定了应用的统计 (机器学习)算法是否合适;与此同时,数据的质量也会决定算法表现的好坏程 度。经典的数据集经过了时间的考验,经过了很多专家学者的检验,在统计领域 具有公认的质量,是检验算法性能很好的数据载体。我们从经典的鸢尾花数据出 发,研究数理统计中经典的判别分析与高斯混合模型方法,验证数理统计经典方 法的有效性,并比对几种不同方法之间的效果差异。 鸢尾花数据集也被称为 Iris 数据集,是常用的分类实验数据集,由 Fisher 于 1936 年收集整理。Iris 是一个用于多变量分析的数据集,数据集包含 150 个样本 观察值,并且分为 3 类,每类各有 50 个观察值,每个观察值包含花萼长度、花 萼宽度、花瓣长度、花瓣宽度 4 个属性。Iris 数据集要求通过这 4 个属性预测鸢 尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。 图1.1 鸢尾花数据分布情况 Iris 数据集虽然很简单,却可以对数理统计领域的很多方法进行效果检验。 例如,Iris 样本观察值具有四个属性,而这四个属性具有一定的线性关系,因而 可以通过一些方法降低维度实现预处理,既有利于减少后续的计算,又可以降低 数据中的噪声影响;Iris 四个属性都是数值型数据,而且都是属于同样的数据性 质,基本上符合高斯分布假设,可以利用混合高斯模型对其建模,并通过极大似 然估计求解模型参数。 本文采用主成分分析、线性判别分析的方法进行维度规约处理,并采用高斯 混合模型求取数据分布的密度函数,利用样本与高斯均值的马氏距离判断属于哪 一个类别,最后采用刀切法对不同降维程度的两种降维方法进行分析对比。 1
北京航空航天大学数理统计大作业 2、数据及符号说明 2.1 符号说明 自变量 ix n 自变量 1x 自变量 2x 自变量 3x 自变量 4x 因变量 y D μ Σ R u 表2.1 符号说明 鸢尾花输入向量 样本个数 鸢尾花花萼长度(厘米) 鸢尾花花萼宽度(厘米) 鸢尾花花瓣长度(厘米) 鸢尾花花瓣宽度(厘米) 鸢尾花种类 0: Iris Setosa 1: Iris Versicolour 2: Iris Virginica 样本 均值 协方差矩阵 相关矩阵 线性变换 2.2 样本数据的选取与整理 鸢尾花数据是机器学习基本的数据库,因此在很多与统计、机器学习有关的 2
北京航空航天大学数理统计大作业 网站上都可以找到。本文采用的数据是从 UCI(University of California Irvine) Machine Learning Repository 下载的 Iris 数据,该数据集在 UCI 上始终排在第一 表2.2 鸢尾花数据列表 位。 序 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 花萼宽度 (cm) 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 5.4 4.8 4.8 4.3 5.8 5.7 5.4 5.1 5.7 5.1 5.4 5.1 4.6 5.1 4.8 5 5 5.2 5.2 4.7 4.8 5.4 5.2 5.5 花萼长度 (cm) 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 3.7 3.4 3 3 4 4.4 3.9 3.5 3.8 3.8 3.4 3.7 3.6 3.3 3.4 3 3.4 3.5 3.4 3.2 3.1 3.4 4.1 4.2 花瓣宽度 (cm) 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 1.4 1.7 1.5 1.7 1.5 1 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 花瓣长度 (cm) 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 0.2 0.2 0.1 0.1 0.2 0.4 0.4 0.3 0.3 0.3 0.2 0.4 0.2 0.5 0.2 0.2 0.4 0.2 0.2 0.2 0.2 0.4 0.1 0.2 类别 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
北京航空航天大学数理统计大作业 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 4.9 5 5.5 4.9 4.4 5.1 5 4.5 4.4 5 5.1 4.8 5.1 4.6 5.3 5 7 6.4 6.9 5.5 6.5 5.7 6.3 4.9 6.6 5.2 5 5.9 6 6.1 5.6 6.7 5.6 5.8 6.2 5.6 5.9 6.1 6.3 6.1 6.4 6.6 3.1 3.2 3.5 3.1 3 3.4 3.5 2.3 3.2 3.5 3.8 3 3.8 3.2 3.7 3.3 3.2 3.2 3.1 2.3 2.8 2.8 3.3 2.4 2.9 2.7 2 3 2.2 2.9 2.9 3.1 3 2.7 2.2 2.5 3.2 2.8 2.5 2.8 2.9 3 1.5 1.2 1.3 1.5 1.3 1.5 1.3 1.3 1.3 1.6 1.9 1.4 1.6 1.4 1.5 1.4 4.7 4.5 4.9 4 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4 4.7 3.6 4.4 4.5 4.1 4.5 3.9 4.8 4 4.9 4.7 4.3 4.4 0.1 0.2 0.2 0.1 0.2 0.2 0.3 0.3 0.2 0.6 0.4 0.3 0.2 0.2 0.2 0.2 1.4 1.5 1.5 1.3 1.5 1.3 1.6 1 1.3 1.4 1 1.5 1 1.4 1.3 1.4 1.5 1 1.5 1.1 1.8 1.3 1.5 1.2 1.3 1.4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
北京航空航天大学数理统计大作业 6.8 77 6.7 78 6 79 5.7 80 5.5 81 5.5 82 5.8 83 6 84 5.4 85 6 86 6.7 87 6.3 88 5.6 89 5.5 90 5.5 91 6.1 92 5.8 93 5 94 5.6 95 5.7 96 5.7 97 6.2 98 99 5.1 100 5.7 101 6.3 102 5.8 103 7.1 104 6.3 105 6.5 106 7.6 107 4.9 108 7.3 109 6.7 110 7.2 111 6.5 112 6.4 113 6.8 114 5.7 115 5.8 116 6.4 117 6.5 118 7.7 2.8 3 2.9 2.6 2.4 2.4 2.7 2.7 3 3.4 3.1 2.3 3 2.5 2.6 3 2.6 2.3 2.7 3 2.9 2.9 2.5 2.8 3.3 2.7 3 2.9 3 3 2.5 2.9 2.5 3.6 3.2 2.7 3 2.5 2.8 3.2 3 3.8 4.8 5 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4 4.4 4.6 4 3.3 4.2 4.2 4.2 4.3 3 4.1 6 5.1 5.9 5.6 5.8 6.6 4.5 6.3 5.8 6.1 5.1 5.3 5.5 5 5.1 5.3 5.5 6.7 1.4 1.7 1.5 1 1.1 1 1.2 1.6 1.5 1.6 1.5 1.3 1.3 1.3 1.2 1.4 1.2 1 1.3 1.2 1.3 1.3 1.1 1.3 2.5 1.9 2.1 1.8 2.2 2.1 1.7 1.8 1.8 2.5 2 1.9 2.1 2 2.4 2.3 1.8 2.2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
北京航空航天大学数理统计大作业 119 7.7 120 6 121 6.9 122 5.6 123 7.7 124 6.3 125 6.7 126 7.2 127 6.2 128 6.1 129 6.4 130 7.2 131 7.4 132 7.9 133 6.4 134 6.3 135 6.1 136 7.7 137 6.3 138 6.4 139 6 140 6.9 141 6.7 142 6.9 143 5.8 144 6.8 145 6.7 146 6.7 147 6.3 148 6.5 149 6.2 150 5.9 2.6 2.2 3.2 2.8 2.8 2.7 3.3 3.2 2.8 3 2.8 3 2.8 3.8 2.8 2.8 2.6 3 3.4 3.1 3 3.1 3.1 3.1 2.7 3.2 3.3 3 2.5 3 3.4 3 6.9 5 5.7 4.9 6.7 4.9 5.7 6 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9 5.7 5.2 5 5.2 5.4 5.1 2.3 1.5 2.3 2 2 1.8 2.1 1.8 1.8 1.8 2.1 1.6 1.9 2 2.2 1.5 1.4 2.3 2.4 1.8 1.8 2.1 2.4 2.3 1.9 2.3 2.5 2.3 1.9 2 2.3 1.8 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3、算法原理分析 本节分析文章中采用的所有算法的原理。
分享到:
收藏