logo资料库

PCA主成分分析实验报告 (附MATLAB代码).docx

第1页 / 共5页
第2页 / 共5页
第3页 / 共5页
第4页 / 共5页
第5页 / 共5页
资料共5页,全文预览结束
数据分析综合、设计性实验报告 数 据 分 析 实 验 报 告 专业 实验日期 2018 班级 年 6 月 5 日 姓名 学号 星期 二 成绩评定 1991 年我国 30 个省、区、市城镇居民月平均消费八个指标(单位均为元/ 题 目 人) X1:人均粮食支出 X3:人均烟茶支出 X5:人均衣着商品支出 X7:人均燃料支出 X2:人均副食支出 X4:人均其他副食支出 X6:人均日用品支出 X8:人均非商品支出 1991 年我国 30 个省、区、市城镇居民月平均消费 省区市 山西 X1 8.35 内蒙古 9.25 吉林 8.19 黑龙江 7.73 河南 甘肃 青海 河北 陕西 宁夏 新疆 湖北 云南 湖南 安徽 贵州 辽宁 四川 山东 江西 福建 广西 9.42 9.16 10.06 9.09 9.41 8.7 6.93 8.67 9.98 6.77 8.14 7.67 7.9 7.18 8.82 6.25 10.6 7.27 X2 23.53 23.75 30.5 29.2 27.93 27.98 28.64 28.12 28.2 28.12 29.85 36.05 37.69 38.69 37.75 35.71 39.77 40.91 33.7 35.02 52.41 52.65 海南 13.445 55.85 X3 7.51 6.61 6.61 6.61 6.61 6.61 6.61 6.61 6.61 6.61 4.54 7.31 7.01 6.01 9.61 8.04 8.49 7.32 7.59 4.72 7.7 3.84 5.5 X4 8.62 9.19 9.78 9.43 8.14 9.32 X5 17.42 X6 10 17.77 10.48 16.28 19.29 16.17 15.99 7.6 8.49 9.42 9.1 10.05 16.18 8.39 9.62 10.8 17.26 11.12 16.36 11.56 10.53 19.45 13.3 9.49 7.75 8.94 8.82 8.49 8.31 16.62 10.65 16.67 11.68 16.15 11.08 14.79 11.44 13.15 15.13 9.76 7.76 12.94 19.27 11.05 8.94 17.6 12.75 10.98 18.82 14.73 6.28 9.98 9.16 7.45 10.03 12.53 7.15 11.7 13.03 15.26 9.55 9.52 天津 10.85 44.68 7.32 14.51 17.13 12.08 X7 1.04 1.72 2.52 2.52 1.55 1.82 1.96 2.49 1.53 1.66 1.88 2.83 0.83 1.74 1.28 1.41 2.04 1.14 1.78 1.93 2.31 1.98 2.21 1.26 X8 11.21 10.51 10.32 10 9.76 11.35 10.81 12.56 12.17 11.96 13.61 12.88 11.67 13.23 11.28 13.25 13.29 14.08 10.1 10.39 14.69 14.57 16.3 11.57 第 1 页 共 5 页
数据分析综合、设计性实验报告 江苏 浙江 北京 西藏 上海 广东 7.21 7.68 7.78 7.94 8.28 45.79 7.66 10.36 16.56 12.86 50.37 11.35 13.3 19.25 14.59 48.44 8 20.51 22.12 15.73 39.65 20.97 20.82 22.52 12.41 64.34 8 22.22 20.06 15.12 12.47 76.39 5.52 11.24 14.52 22 2.25 2.75 1.15 1.75 0.72 5.46 11.69 14.87 16.61 7.9 22.89 25.5 1、 建立主成分分析模型 2、 模型求解过程列表表示主成分、特征值、贡献率、累计贡献率 3、 选取包含原始变量 80%以上的信息的主成分代表原信息,写出主成分表 达式,并解释主成分的意义 4、 按第一主成分排序、列表,得出结论省(市、区)Y1的得分排名。 模 型 问题分析: 由题目中的表格看出,一共有三十个地区,有八类指标,各类的数据性质不同, 数值大小上也有差异,并且从各类数据看也没有明显的分布规律。因此,在面对 复杂的数据而不知所措的情况下,我们考虑用主成分分析的方法对其进行分析。 提出假设: 1、假设所有数据都为真实可靠。 2、假设 Matlab 的计算结果误差较小并且可靠。 符号说明: 1、原始数据写成矩阵 X 2、相关系数矩阵 R 3、特征向量矩阵 P 建立模型: n  1、有 n ( 30 )个城市,每个城市有 p ( x 12 x 22  x n x 11 x 21  x 1 n X =        2 p 8 p  )个指标,将原始数据写出:     x 1 x 2  x np p        2、建立变量的相关系数矩阵: r ij  其中 n  k    x ki   x i 1     n  k 1  x ki   x i       2 n  k 1   x j  x kj    x kj  R   ij r p p      x j 2    第 2 页 共 5 页
3、求出 R 的特征根 1   2  数据分析综合、设计性实验报告 , , p p p , a 2    a 1   p                  a  11  a  21    a   0 及相对应的特征向量: a  12  a  22    a   i  以及累计贡献率 1  p  a 1 a 2  a                k  k  a p 2 1 p pp 4、求出贡献率  i p   k k 1  k 其中 1,2,   。 p i , k 1  , 5、选取包含原始变量 80%以上的信息的主成分代表原信息,写出主成分: y i  * a x 1 1 i  a x 2 i * 2    a x pi * p i  1,2,  , p 求 解 方 法 Matlab 程序: clc s=[]; v2=[]; s=corrcoef(x); s [p,t,v]=pcacov(s) v2(1)=v(1); for i=2:size(v,1) v2(i)=v(i)+v2(i-1); end v2=v2' y=x*p; y1=y(:,1) 1、计算出相关系数矩阵 R : 结 果 R  1 0.3336072 1 0.3336072 0.022902 0.054481   0.398931 0.061179 0.156304 0.289201   0.7111341 0.1989322 0.34328 0.4032341 58 0.3257319 0.8367764                0.054481298 0.022901828  0.061179 0.398931   1 0.5333292 0.4967628 0.0328296 1 0.6984244 0.4679173 1 0.2801292 0.533329194 0.49676279 0.6984244 0.032829613 0.4679173 0.2801292 0.138937403 0.183145 0.258250585 0.3171878    0.289201 0.1989322 0.3432858 0.3257319 0.156304 0.7111341 0.4032341 0.8367764 0.258251 0.138937   0.183145 0.3171878  0.08393 0.20476   1 0.4110703 0.7009764 1 0.3987232 1 0.20476 0.4110703 0.08393 0.7009764 0.3987232                第 3 页 共 5 页
数据分析综合、设计性实验报告 2、使用 Matlab 命令求出特征向量矩阵 P : P  0.241147 0.2504433  0.5193132 0.037667  0.018013 0.4749988  0.2549996 0.5382915 0.0223502 0.5744016 0.1338298 0.4927784 0.263322 0.3121727  0.5113324 0.088665               0.378088 0.50 20917 0.692674963  0.223537 0.07493838   0.0305193 0.580729354 0.026769707 0.232093 0.0 139619   0.043817022 0.2915832 0. 5151475  21 0.2257243 0.1731956 0.144541  0.289323047 0.76659 0.092 466  0.264768799 0.169261 0.02 74395   0.041461 0.0456362 0.021884  0.297928 0.6357067 0.424 722 0.0061622   0.042558 0.3826345 81432 0.5 12488 0.15   0.471595 0.469143 0.384632     0.1408843 0.5247816 0.148329   0.2 47425 0.7574191 0.050157     0.09499 0.349546 0.148614     0.162019 0.329643 0.7044563           再求出特征值、主成分贡献率、累积贡献率: 主成分 特征值 主成分贡献率(%) 累计贡献率(%) 3.091949804 2.369067082 0.916257608 0.718143777 0.498190634 0.231126246 0.123518125 0.051746724 1 2 3 4 5 6 7 8 表一:主成分特征值、主成分贡献率及累计贡献率 38.64937254 29.61333852 11.4532201 8.976797207 6.227382926 2.889078079 1.543976567 0.64683405 38.64937254 68.26271107 79.71593117 88.69272838 94.9201113 97.80918938 99.35316595 100 则得出各主成分: y 1  * 0.2504433 x 1 * 0.0223502 x 5   * 0.5193132 x 2 * 0.4927784 x 6   * 0.018013 x  3 * 0.3121727 x 7 0.2549996  * x  4 * 0.5113324 x 8 y 2   0.241147 0.5744016 * x 1 * x 5   * * 0.4749988 0.037667 x x  2 3 * * 0.1338298 0.263322 x x  6 7   * 0.5382915 x 4 * 0.088665 x 8  y 3 * 0.692674963 x  1 * 0.043817022 x 5 * * * 0.07493838 0.580729354 0.026769 707 x x x    3 2 4 * * * 0.14454121 0.289323047 0.264768 799 x x x    6 7 8  第一主成分的第二项、第六项和第八项指标的系数比较大,这三个指标在起 主作用,我们可以把第一主成分看作是人均副食支出、人均日用品支出和人均非 商品支出的综合指标。 第二主成分的第四项和第五项的指标的系数比较大,且这两个指标的影响较 大,因此,我们可以把第二主成分看成是人均其他副食支出和人均衣着商品支出 第 4 页 共 5 页
数据分析综合、设计性实验报告 的综合指标。 第三主成分的第一项和第三项的指标的系数比较大,且这两个指标的影响较 大,因此,我们可以把第三主成分看成是人均粮食支出和人均烟茶支出的综合指 标。 3、按第一主成分得分排序: 排名 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 省区市 Y1 的得分 广东 71.46921295 排名 16 省区市 山东 35.77231977 Y1 的得分 上海 60.8365823 北京 49.28793466 海南 48.10084001 浙江 47.35011894 广西 47.30842351 福建 46.55624364 天津 42.13348479 江苏 41.47597446 四川 39.42284931 辽宁 39.08667851 西藏 38.71517437 湖南 37.20461707 湖北 36.33479281 云南 36.27305391 17 18 19 20 21 22 23 24 25 26 27 28 29 30 安徽 34.9053527 贵州 33.81723024 宁夏 32.95961932 新疆 32.74090508 陕西 32.41406901 河北 32.26451906 江西 30.93076796 吉林 30.4716584 青海 30.40123382 甘肃 30.25217997 黑龙江 29.92170865 河南 29.2694278 内蒙古 28.34718805 山西 27.74727753 表二:第一主成分得分排序 结 果 分 析 由第一主成分的得分排序得出,广东、上海和北京等相对富裕发达的地区的人均 副食支出、人均日用品支出和人均非商品支出比较高。相对而言,山西、内蒙古 和河南等相对落后的地区的消费情况比较低。 第 5 页 共 5 页
分享到:
收藏