湘潭大学数学与计算科学学院
学生实验报告
统计
班级 06 统计
姓名 唐明达
学号 2006750432
2008 年 12 月 10 日至 2009 年 1 月 10 日
聚类分析方法的应用
一些关于聚类分析的知识。
聚类分析的功能是建立一种分类的方法,它将一批样本或变量,按照它们
的性质上的亲疏,相似程度进行分类。
按照聚类的方法可以分为以下几种:
1,系统聚类法
2,调优法(动态聚类)
3,最优分割法
4,模糊聚类法
5,图论聚类法
6,聚类预报法
按照分类对象的不同又分为 R 型和 Q 型两大类。
R 型聚类分析的目的有以下几方面:
1 可以了解变量间及变量组合间的亲疏关系
2 对变量进行分类
3 根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为
重要变量,利用少数几个重要变量进一步作分析计算。
Q 型聚类分析的目的主要是对样本进行分类,分类的结果是直观的,且比
传统分类方法更细致,全面,合理。
成绩:
签名:
年 月 日
专业
实验
日期
实验
项目
实
验
内
容
与
要
求
指
导
教
师
意
见
备
注
数据如下:
X1,X2,X3,X4,X5,X6,X7,X8 分 别 代 表 运 动 员 跑 完
100m,200m,400m,800m,1500m,5000m,10000m 以 及 马 拉 松 全
程所花费的时间。注:X1,X2,X3的单位是秒,X4,X5,X6,X7,X8
的单位是分。
国家与地区
阿根廷
奥地利
智利
中国
哥伦比亚
希腊
印度
以色列
爱尔兰
韩国
卢森堡
墨西哥
挪威
葡萄牙
土耳其
澳大利亚
比利时
巴西
加拿大
捷克
丹麦
芬兰
法国
德民主
德联邦
北爱尔兰
匈牙利
意大利
日本
X1
10.39
10.44
10.34
10.51
10.43
10.22
10.60
10.61
10.71
10.34
10.35
10.42
10.55
10.53
10.71
10.31
10.34
10.22
10.17
10.35
10.56
10.43
10.11
10.12
10.16
10.11
10.26
10.01
10.34
X2
20.81
20.81
20.80
21.04
21.05
20.71
21.42
20.96
21.00
20.89
20.77
21.30
21.16
21.17
21.43
20.06
20.68
20.43
20.22
20.65
20.52
20.69
20.38
20.33
20.37
20.21
20.62
19.72
20.81
X3
46.84
46.82
46.20
47.30
46.10
46.56
45.73
46.30
47.80
46.90
47.40
46.10
46.71
46.70
47.60
44.84
45.04
45.21
45.68
45.64
45.89
45.49
45.28
44.87
44.50
44.93
46.02
45.26
45.86
X4
1.81
1.79
1.79
1.81
1.82
1.78
1.76
1.79
1.77
1.79
1.82
1.80
1.76
1.79
1.79
1.74
1.73
1.73
1.76
1.76
1.78
1.74
1.73
1.73
1.73
1.70
1.77
1.73
1.79
X5
3.70
3.60
3.71
3.73
3.74
3.64
3.73
3.56
3.72
3.77
3.67
3.65
3.62
3.62
3.67
3.57
3.60
3.66
3.63
3.58
3.61
3.61
3.57
3.56
3.53
3.51
3.62
3.60
3.64
X6
14.04
13.26
13.61
13.90
13.49
14.59
13.77
13.32
13.66
13.96
13.64
13.46
13.34
13.13
13.56
13.28
13.22
13.62
13.55
13.42
13.50
13.27
13.34
13.17
13.21
13.01
13.49
13.23
13.41
X7
29.36
27.72
29.30
29.13
27.88
28.45
28.81
27.81
28.93
29.23
29.08
27.95
27.69
27.38
28.58
27.66
27.45
28.62
28.09
28.19
28.11
27.52
27.97
27.42
27.61
27.51
28.44
27.52
27.72
X8
137.72
135.90
134.03
133.53
131.35
134.60
131.98
132.35
137.55
136.25
141.27
129.20
131.48
128.65
131.50
128.30
129.95
133.13
130.15
134.32
130.78
130.87
132.30
129.92
132.23
129.13
132.58
131.08
128.63
肯尼亚
荷兰
新西兰
波兰
罗马尼亚
西班牙
瑞士
瑞典
美国
苏联
百慕大
缅甸
哥斯达黎加
多米尼加
委的马拉
印尼
朝鲜
马来西亚
毛里求斯
新几内亚
菲律宾
新加坡
台北
泰国
库克群岛
西萨摩亚
10.46
10.52
10.51
10.16
10.41
10.42
10.25
10.37
9.93
10.07
10.28
10.64
10.94
10.14
10.98
10.59
10.91
10.40
11.19
10.96
10.78
10.38
10.59
10.39
12.18
10.82
20.66
20.95
20.88
20.24
20.98
20.77
20.61
20.46
19.75
20.00
20.58
21.52
21.90
20.65
21.82
21.49
21.94
20.92
22.45
21.78
21.64
21.28
21.29
21.09
23.20
21.86
44.92
45.10
46.10
45.36
45.87
45.98
45.63
45.78
43.86
44.60
45.91
48.30
48.66
46.80
48.40
47.80
47.30
46.30
47.70
47.90
46.24
47.40
46.80
47.91
52.94
49.00
1.73
1.74
1.74
1.76
1.76
1.76
1.77
1.78
1.73
1.75
1.80
1.80
1.87
1.82
1.89
1.84
1.85
1.82
1.88
1.90
1.81
1.88
1.79
1.83
2.02
2.02
3.55
3.62
3.54
3.60
3.64
3.55
3.61
3.55
3.53
3.59
3.75
3.85
3.84
3.82
3.80
3.92
3.77
3.80
3.83
4.01
3.83
3.89
3.77
3.84
4.24
4.24
13.10
13.36
13.21
13.29
13.25
13.31
13.29
13.22
13.20
13.20
14.68
14.45
14.03
14.91
14.16
14.73
14.13
14.64
15.06
14.72
14.74
15.11
14.07
15.23
16.70
16.28
27.38
27.61
27.70
27.89
27.67
27.73
27.94
27.91
27.43
27.53
30.55
30.28
28.81
31.45
30.11
30.79
29.27
31.01
31.77
31.36
30.64
31.32
30.07
32.65
35.38
34.71
129.75
129.02
128.98
131.58
132.50
131.57
130.63
131.20
128.22
130.55
146.62
139.95
136.58
154.12
139.33
148.83
130.87
154.10
152.23
148.22
145.27
157.77
139.27
149.90
164.70
161.83
在刚刚过去的2008年,对我们中国人来说是难忘的一年,因为在
八月,北京成功的举办了奥运会。奥运会给我们留下了许许多多的回
忆,其中就有在田径赛场上,世界见证了一位新的百米飞人的诞生—
—博尔特,让全世界的目光都聚集在田径赛跑这个充满激情的比赛项
目。当今世界上各个国家田径赛跑的能力各不相同,因此我所要做的
是利用SPSS统计软件对世界上的55个国家与地区的田径赛跑这项目
水平的分析,而所参考的指标是八种田径赛跑项目的成绩,即100米,
200米,400米,800米,1500米,5000米,10000米和马拉松项目。
首先采用层次聚类进行分析 ,其基本思想是,在聚类分析的开始,每个样
本自成一类;然后,按照某种方法度量所有的样本之间的亲疏程度,并把其中最
亲密的或称最相视的样本首先聚成一类;接下来,度量剩余样本和小类之间的亲
疏程度,并将当前最亲密的样本或小类在聚成一类;再接下来,再度量剩余的样
本和小类(或小类和小类)间的亲疏程度,并将当前最亲密的样本或小类聚成一
类;如此反复,直到所有的样本聚成一类为止。
样本数据间的亲疏远程度主要是用样本间的距离、或样本间相关关系来度量的。
本文采用组间平均链锁法来计算类间的距离,用欧氏距离平方法计算样本距离。
具体输出结果如下:
Case Processing Summary(a,b)
Valid
Cases
Missing
Total
N
Percent
N
Percent
N
Percent
55
100.0
0
.0
55
100.0
a
Squared Euclidean Distance used
b Average Linkage (Between Groups)
Agglomeration Schedule
Stag
Stage Cluster First
e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Cluster Combined
Coefficients
Appears
Next Stage
Cluster 1
Cluster 2
Cluster 1
Cluster 2
17
17
5
29
21
8
21
21
12
23
5
43
41
28
17
8
30
24
35
32
36
34
37
22
29
33
13
47
44
39
26
27
.091
.234
.236
.267
.267
.280
.372
.440
.529
.558
.605
.658
.724
.800
.810
.816
0
1
0
0
0
0
5
7
0
0
3
0
0
0
2
6
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
2
15
11
9
7
16
8
18
19
20
24
45
34
27
21
24
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
45
19
12
23
17
16
1
5
15
3
19
18
5
3
1
5
17
41
40
3
12
1
45
1
12
11
3
3
43
3
1
40
43
54
40
1
40
1
49
21
14
25
31
38
9
8
46
4
28
20
7
6
10
23
19
52
50
18
17
42
53
2
16
41
5
15
48
12
11
45
51
55
43
3
54
40
.940
.944
.954
1.017
1.046
1.268
1.420
1.499
1.602
1.660
1.720
1.898
1.984
2.499
2.517
2.598
2.663
2.990
3.323
3.595
4.321
4.642
5.327
5.532
6.164
6.269
6.776
8.531
9.017
12.820
14.672
15.768
20.785
28.031
55.575
65.441
213.072
498.278
0
0
9
10
15
0
0
11
0
0
18
0
24
26
23
29
21
13
0
30
19
31
17
38
37
0
36
43
12
44
40
35
45
0
48
47
51
52
0
8
0
0
0
0
0
16
0
0
14
0
0
0
0
20
27
0
0
28
33
0
0
0
22
34
32
25
0
41
42
39
0
0
49
46
50
53
39
27
37
32
33
41
31
29
44
30
33
36
32
36
38
43
37
42
48
43
41
40
48
47
46
47
44
46
49
52
52
51
51
53
53
54
54
0
第一行数据的含义是:在聚类分析中的第一步,17号样和30号
样聚成一小类,它们的样本欧式距离是0.091,这个小类将在聚
类分析第三十七步用到。同理,第三十七行数据的含义是:在聚
类分析的第三十七步中,12号样与第一步聚成的小样(以该小类
中的17号样本为标记)又聚成一小类,它们的样本欧氏距离是
4.321,这个小聚类将在聚类分析中的第四十六步中用到。。。。。。
照此分析下去。
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E
0
5
10
15
20
25
Label
Num +---------+---------+---------+---------+---------+
比利时
肯尼亚
德民主
北爱尔兰
荷兰
意大利
苏联
丹麦
瑞士
瑞典
芬兰
加拿大
日本
新西兰
墨西哥
葡萄牙
澳大利亚
美国
土耳其
朝鲜
法国
波兰
德联邦
哥伦比亚
西班牙
挪威
以色列
罗马尼亚
匈牙利
17
30
24
26
31
28
39
21
36
37
22
19
29
32
12
14
16
38
15
46
23
33
25
5
35
13
8
34
27
印度
巴西
捷克
智利
中国
希腊
阿根廷
爱尔兰
韩国
哥斯达黎加
奥地利
缅甸
委的马拉
台北
卢森堡
库克群岛
西萨摩亚
百慕大
菲律宾
印度尼西亚
巴布亚新几内亚
泰国
多米尼加共和国
马来西亚
毛里求斯
新加坡
7
18
20
3
4
6
1
9
10
42
2
41
44
52
11
54
55
40
50
45
49
53
43
47
48
51
+
上面为树形图,其中横向距离表示差异的大小,它将实际距离按
比例调整到 0~25 的范围内,树状结构则表示分类情况,用逐级
连线的方式连接性质相近的个案,直至并为一类。对结果进行分
析,将其分成八类。
第一类 第二类 第三类 第四类 第五类 第六类
第七类
第八类
危地马拉 台北
卢森堡
库克群岛 西萨摩亚 百慕大
菲律宾
印尼
新几内亚
泰国
多米尼加
马来西亚
毛里求斯
新加坡
比利时
肯尼亚
德民主
北爱尔兰
荷兰
意大利
苏联
丹麦
瑞士
瑞典
芬兰
加拿大
日本
新西兰
墨西哥
澳大利亚
美国
土耳其
朝鲜
法国
波兰
德联邦
哥伦比亚
西班牙
挪威
以色列
罗马尼亚
匈牙利
印度
巴西
捷克
智利
中国
希腊
阿根廷
爱尔兰
韩国
哥 斯 达 尼
加
奥地利
缅甸
55 个地区的分类及平均的赛跑时间