数据分析综合、设计性实验报告
数 据 分 析 实 验 报 告
专业
实验日期
2018
班级
年 6 月 5 日
姓名
学号
星期
二
成绩评定
1991 年我国 30 个省、区、市城镇居民月平均消费八个指标(单位均为元/
题 目
人)
X1:人均粮食支出
X3:人均烟茶支出
X5:人均衣着商品支出
X7:人均燃料支出
X2:人均副食支出
X4:人均其他副食支出
X6:人均日用品支出
X8:人均非商品支出
1991 年我国 30 个省、区、市城镇居民月平均消费
省区市
山西
X1
8.35
内蒙古 9.25
吉林
8.19
黑龙江 7.73
河南
甘肃
青海
河北
陕西
宁夏
新疆
湖北
云南
湖南
安徽
贵州
辽宁
四川
山东
江西
福建
广西
9.42
9.16
10.06
9.09
9.41
8.7
6.93
8.67
9.98
6.77
8.14
7.67
7.9
7.18
8.82
6.25
10.6
7.27
X2
23.53
23.75
30.5
29.2
27.93
27.98
28.64
28.12
28.2
28.12
29.85
36.05
37.69
38.69
37.75
35.71
39.77
40.91
33.7
35.02
52.41
52.65
海南 13.445
55.85
X3
7.51
6.61
6.61
6.61
6.61
6.61
6.61
6.61
6.61
6.61
4.54
7.31
7.01
6.01
9.61
8.04
8.49
7.32
7.59
4.72
7.7
3.84
5.5
X4
8.62
9.19
9.78
9.43
8.14
9.32
X5
17.42
X6
10
17.77
10.48
16.28
19.29
16.17
15.99
7.6
8.49
9.42
9.1
10.05
16.18
8.39
9.62
10.8
17.26
11.12
16.36
11.56
10.53
19.45
13.3
9.49
7.75
8.94
8.82
8.49
8.31
16.62
10.65
16.67
11.68
16.15
11.08
14.79
11.44
13.15
15.13
9.76
7.76
12.94
19.27
11.05
8.94
17.6
12.75
10.98
18.82
14.73
6.28
9.98
9.16
7.45
10.03
12.53
7.15
11.7
13.03
15.26
9.55
9.52
天津
10.85
44.68
7.32
14.51
17.13
12.08
X7
1.04
1.72
2.52
2.52
1.55
1.82
1.96
2.49
1.53
1.66
1.88
2.83
0.83
1.74
1.28
1.41
2.04
1.14
1.78
1.93
2.31
1.98
2.21
1.26
X8
11.21
10.51
10.32
10
9.76
11.35
10.81
12.56
12.17
11.96
13.61
12.88
11.67
13.23
11.28
13.25
13.29
14.08
10.1
10.39
14.69
14.57
16.3
11.57
第 1 页 共 5 页
数据分析综合、设计性实验报告
江苏
浙江
北京
西藏
上海
广东
7.21
7.68
7.78
7.94
8.28
45.79
7.66
10.36
16.56
12.86
50.37
11.35
13.3
19.25
14.59
48.44
8
20.51
22.12
15.73
39.65
20.97
20.82
22.52
12.41
64.34
8
22.22
20.06
15.12
12.47
76.39
5.52
11.24
14.52
22
2.25
2.75
1.15
1.75
0.72
5.46
11.69
14.87
16.61
7.9
22.89
25.5
1、 建立主成分分析模型
2、 模型求解过程列表表示主成分、特征值、贡献率、累计贡献率
3、 选取包含原始变量 80%以上的信息的主成分代表原信息,写出主成分表
达式,并解释主成分的意义
4、 按第一主成分排序、列表,得出结论省(市、区)Y1的得分排名。
模 型
问题分析:
由题目中的表格看出,一共有三十个地区,有八类指标,各类的数据性质不同,
数值大小上也有差异,并且从各类数据看也没有明显的分布规律。因此,在面对
复杂的数据而不知所措的情况下,我们考虑用主成分分析的方法对其进行分析。
提出假设:
1、假设所有数据都为真实可靠。
2、假设 Matlab 的计算结果误差较小并且可靠。
符号说明:
1、原始数据写成矩阵 X
2、相关系数矩阵 R
3、特征向量矩阵 P
建立模型:
n
1、有 n (
30
)个城市,每个城市有 p (
x
12
x
22
x
n
x
11
x
21
x
1
n
X
=
2
p
8
p )个指标,将原始数据写出:
x
1
x
2
x
np
p
2、建立变量的相关系数矩阵:
r
ij
其中
n
k
x
ki
x
i
1
n
k
1
x
ki
x
i
2
n
k
1
x
j
x
kj
x
kj
R
ij
r
p p
x
j
2
第 2 页 共 5 页
3、求出 R 的特征根 1
2
数据分析综合、设计性实验报告
,
,
p
p
p
,
a
2
a
1
p
a
11
a
21
a
0
及相对应的特征向量:
a
12
a
22
a
i
以及累计贡献率 1
p
a
1
a
2
a
k
k
a
p
2
1
p
pp
4、求出贡献率
i
p
k
k
1
k
其中 1,2,
。
p
i
,
k
1
,
5、选取包含原始变量 80%以上的信息的主成分代表原信息,写出主成分:
y
i
*
a x
1
1
i
a x
2
i
*
2
a x
pi
*
p
i
1,2,
,
p
求 解 方 法
Matlab 程序:
clc
s=[];
v2=[];
s=corrcoef(x);
s
[p,t,v]=pcacov(s)
v2(1)=v(1);
for i=2:size(v,1)
v2(i)=v(i)+v2(i-1);
end
v2=v2'
y=x*p;
y1=y(:,1)
1、计算出相关系数矩阵 R :
结 果
R
1 0.3336072
1
0.3336072
0.022902
0.054481
0.398931
0.061179
0.156304
0.289201
0.7111341
0.1989322
0.34328
0.4032341
58
0.3257319 0.8367764
0.054481298
0.022901828
0.061179
0.398931
1 0.5333292 0.4967628 0.0328296
1 0.6984244 0.4679173
1 0.2801292
0.533329194
0.49676279 0.6984244
0.032829613 0.4679173 0.2801292
0.138937403
0.183145
0.258250585 0.3171878
0.289201 0.1989322
0.3432858 0.3257319
0.156304 0.7111341 0.4032341 0.8367764
0.258251
0.138937
0.183145 0.3171878
0.08393
0.20476
1 0.4110703 0.7009764
1 0.3987232
1
0.20476 0.4110703
0.08393 0.7009764 0.3987232
第 3 页 共 5 页
数据分析综合、设计性实验报告
2、使用 Matlab 命令求出特征向量矩阵 P :
P
0.241147
0.2504433
0.5193132
0.037667
0.018013 0.4749988
0.2549996
0.5382915
0.0223502 0.5744016
0.1338298
0.4927784
0.263322
0.3121727
0.5113324
0.088665
0.378088 0.50 20917
0.692674963
0.223537
0.07493838
0.0305193
0.580729354
0.026769707
0.232093 0.0 139619
0.043817022 0.2915832 0. 5151475
21 0.2257243 0.1731956
0.144541
0.289323047
0.76659
0.092 466
0.264768799
0.169261 0.02 74395
0.041461 0.0456362
0.021884
0.297928 0.6357067
0.424 722 0.0061622
0.042558
0.3826345
81432
0.5 12488 0.15
0.471595
0.469143
0.384632
0.1408843 0.5247816
0.148329
0.2 47425
0.7574191
0.050157
0.09499
0.349546
0.148614
0.162019
0.329643 0.7044563
再求出特征值、主成分贡献率、累积贡献率:
主成分 特征值 主成分贡献率(%) 累计贡献率(%)
3.091949804
2.369067082
0.916257608
0.718143777
0.498190634
0.231126246
0.123518125
0.051746724
1
2
3
4
5
6
7
8
表一:主成分特征值、主成分贡献率及累计贡献率
38.64937254
29.61333852
11.4532201
8.976797207
6.227382926
2.889078079
1.543976567
0.64683405
38.64937254
68.26271107
79.71593117
88.69272838
94.9201113
97.80918938
99.35316595
100
则得出各主成分:
y
1
*
0.2504433
x
1
*
0.0223502
x
5
*
0.5193132
x
2
*
0.4927784
x
6
*
0.018013
x
3
*
0.3121727
x
7
0.2549996
*
x
4
*
0.5113324
x
8
y
2
0.241147
0.5744016
*
x
1
*
x
5
*
*
0.4749988
0.037667
x
x
2
3
*
*
0.1338298
0.263322
x
x
6
7
*
0.5382915
x
4
*
0.088665
x
8
y
3
*
0.692674963
x
1
*
0.043817022
x
5
*
*
*
0.07493838
0.580729354
0.026769 707
x
x
x
3
2
4
*
*
*
0.14454121
0.289323047
0.264768 799
x
x
x
6
7
8
第一主成分的第二项、第六项和第八项指标的系数比较大,这三个指标在起
主作用,我们可以把第一主成分看作是人均副食支出、人均日用品支出和人均非
商品支出的综合指标。
第二主成分的第四项和第五项的指标的系数比较大,且这两个指标的影响较
大,因此,我们可以把第二主成分看成是人均其他副食支出和人均衣着商品支出
第 4 页 共 5 页
数据分析综合、设计性实验报告
的综合指标。
第三主成分的第一项和第三项的指标的系数比较大,且这两个指标的影响较
大,因此,我们可以把第三主成分看成是人均粮食支出和人均烟茶支出的综合指
标。
3、按第一主成分得分排序:
排名
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
省区市 Y1 的得分
广东 71.46921295
排名
16
省区市
山东 35.77231977
Y1 的得分
上海 60.8365823
北京 49.28793466
海南 48.10084001
浙江 47.35011894
广西 47.30842351
福建 46.55624364
天津 42.13348479
江苏 41.47597446
四川 39.42284931
辽宁 39.08667851
西藏 38.71517437
湖南 37.20461707
湖北 36.33479281
云南 36.27305391
17
18
19
20
21
22
23
24
25
26
27
28
29
30
安徽
34.9053527
贵州 33.81723024
宁夏 32.95961932
新疆 32.74090508
陕西 32.41406901
河北 32.26451906
江西 30.93076796
吉林
30.4716584
青海 30.40123382
甘肃 30.25217997
黑龙江 29.92170865
河南
29.2694278
内蒙古 28.34718805
山西 27.74727753
表二:第一主成分得分排序
结 果 分 析
由第一主成分的得分排序得出,广东、上海和北京等相对富裕发达的地区的人均
副食支出、人均日用品支出和人均非商品支出比较高。相对而言,山西、内蒙古
和河南等相对落后的地区的消费情况比较低。
第 5 页 共 5 页