S
P
S
S
结
课
论
文
姓名:呼亚楠
学号:201618124
班级:2016181 班
专业:统计学
学院:数学与统计学院
任课教师:谢蕾蕾
摘要
奥林匹克体育运动一直是展示个人能力和国家魅力的全民赛事,本文针对 34 个运动员在
十项体育项目:“100 米”、“跳远”、“铅球”、“跳高”、“400 米”、“110 米栏”、“铁饼”、“撑
杆跳”、“标枪”、“1500 米”上的比赛记录和最后得分数据分析各项体育成绩对得分的影响
程度为运动员平时训练侧重点提供可靠的理论依据。
首先对数据进行预处理,由十个运动项目的箱线图结合各项目的极值、最值和标准差得到
第 34 名运动员的“标枪”、“铁饼”项目数据为异常值,因此剔除第 34 名运动员的数据,对
剩下的 33 名运动员成绩进行分析。然后根据各项目与得分之间的相关关系粗略的得到十个
运动项目对总得分的影响程度为:撑杆跳>110 米栏>跳远>100 米>铅球>400 米>跳高>标枪>
铁饼>1500 米,通过建立十个运动项目与总得分的线性模型得到十个运动项目对总得分的影
响程度为:撑杆条>跳高>1500 米>标枪>铁饼>铅球>110 米栏>跳远>400 米>100 米。项目对得
分的影响程度结果与相关系数得到的结果差别很大,重新回到原始数据本身寻找问题,由十
个奥林匹克项目可知有些项目对于运动员的身体素质要求是有重叠的如铁饼、标枪、铅球是
考察运动员的投掷能力,撑杆跳、跳高、跳远则是考察运动员的弹跳能力,另外还有 100
米栏、100 米是冲刺能力和 400 米、1500 米的耐力能力,单纯的用原始十个变量对总分分析
建立回归模型会出现多重共线性问题,在不剔除变量分析十项运动项目对总得分的影响的前
提下用因子分析以提取相互独立的主成分的方法研究得分与运动项目之间的关系,得到十个
运动项目对总得分的影响程度为:跳远>标枪>跳高>铅球>撑杆跳>110 米栏>100 米>铁
饼>1500 米>400 米。
由因子分析结果可知在十项体育项目中对成绩影响最大的是弹跳项目,然后是投掷项
目,最后速度项目,并且由各项目之间的相关矩阵得到铁饼、标枪、铅球与1500米呈正相关,
意味着铁饼、标枪、铅球需要投掷能力的运动项目成绩越好其1500米需要耐力的项目用时越
长即越差,这体现出了运动员对全能性的缺失,只在单个运动项目上面有优势。根据分析结
果可以给运动员提供可靠的训练侧重点,他们应该着重培养提高自己的弹跳力并且提高自己
不足的耐力和速度训练以在奥林匹克比赛中获得更好的成绩。
关键词:线性模型 相关分析 因子分析
1.数据预处理:
图 1:十个运动项目数据箱线图
表 1:十个运动项目数据统计描述
Descriptive Statistics
Maximum
Minimum
N
Mean
Std. Deviation
100米(秒)
跳远(米)
铅球(米)
跳高(米)
400米(秒)
110米栏(秒)
铁饼(米)
撑杆跳(米)
标枪(米)
1500米(秒)
Valid N (listwise)
34
34
34
34
34
34
34
34
34
34
34
10.62
5.83
9.71
1.70
47.44
14.18
27.10
2.60
39.10
256.64
12.12
7.72
16.60
2.27
52.32
17.05
50.66
5.70
72.60
303.17
11.2235
7.0950
13.8509
1.9744
49.3662
15.1076
41.9053
4.6765
58.8406
276.1915
.28723
.37387
1.50193
.10448
1.17555
.60566
4.50071
.49302
6.43874
13.47813
首先对数据进行预处理,由统计可知数据无缺失值,由图1运动项目的箱线图可知标枪
和铁饼运动项目的数据异常值最明显,结合表1运动项目的描述可知十个运动项目的数据中
标枪和铁饼的数据标准差最大,其中标枪的标准差为6.4374、铁饼的标准差为4.50071,通
过比较最小值、最大值和均值的比较可知标枪和铁饼的异常值点为其最小值,而且通过观察
原始数据可知标枪和铁饼数据异常值点全部出现在最后一个个案里,由以上分析删除最后一
个个案以保证数据的准确性。
2.粗略分析运动项目与得分关系
表 2:运动项目得分相关系数表
100
米
1
-.691
**
-.420
*
-.364
*
.698*
*
.751*
*
-.353
*
-.627
**
-.344
*
.254
-.632
**
跳远
铅球
跳高
-.691
**
1
-.420
*
.391*
.391*
1
-.364
*
.471*
*
.321
400
米
.698*
*
-.636
**
-.142
.471*
*
-.636
**
-.654
**
.375*
.632*
*
.446*
*
-.356
*
.667*
*
.321
1
-.275
-.142
-.275
1
-.489
**
-.487
**
.655*
*
.856*
*
.643*
*
.703*
*
.202
.604*
*
.376*
-.154
.472*
*
-.521
**
.338
-.150
-.132
.488*
*
.554*
*
-.536
**
110
米栏
.751*
*
-.654
**
-.489
**
-.487
**
.655*
*
1
-.403
*
-.709
**
-.350
*
.155
-.695
**
铁饼
-.35
3*
.375*
.856*
*
.376*
-.15
4
-.40
3*
1
.620*
*
.618*
*
.288
.451*
*
撑杆
跳
-.627
**
.632*
*
.643*
*
.472*
*
-.521
**
-.709
**
.620*
*
1
.557*
*
-.070
标枪
-.34
4*
.446*
*
.703*
*
.338
-.15
0
-.35
0*
.618*
*
.557*
*
150
0米
.254
-.35
6*
.202
-.13
2
.554*
*
.155
.288
-.07
0
1
.045
.045
1
.718*
*
.487*
*
-.30
2
100
米
跳
远
铅
球
跳
高
400
米
110
米
栏
铁
饼
撑
杆
跳
标
枪
150
0米
总
分
由表 2 可知奥林匹克运动项目对成绩总得分的影响程度依次为:
撑杆跳>110 米栏>跳远>100 米>铅球>400 米>跳高>标枪>铁饼>1500 米
而且铁饼、标枪、铅球与1500米呈正相关,意味着铁饼、标枪、铅球需要投掷能力的运动项
目成绩越好其1500米需要耐力的项目用时越长及越差,这体现出了运动员对全能性的缺失,
只在单个运动项目上面有优势。
表 3:运动项目与得分的线性模型
model
(Constant)
100米(秒)
跳远(米)
Standardized
Coefficients
Beta
-0.124
0.157
t
Sig.
13.101
-4.161
6.003
0.000
0.000
0.000
铅球(米)
跳高(米)
400米(秒)
110米栏(秒)
铁饼(米)
撑杆跳(米)
标枪(米)
1500米(秒)
0.162
0.219
-0.144
-0.162
0.191
0.231
0.207
-0.208
4.810
10.254
-4.381
-5.165
4.720
9.232
8.108
-7.336
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
单纯的用原始变量和总分做线性回归,由标准化回归系数可知奥林匹克运动项目对成绩
总得分的影响程度依次为:
撑杆条>跳高>1500 米>标枪>铁饼>铅球>110 米栏>跳远>400 米>100 米
而且以跳高为例,跳高项目中运动员跳高每增加一米,总得分就上升 0.219 个百分比。项目
对得分的影响程度结果与相关系数得到的结果差别很大,重新回到原始数据本身寻找问题,
由十个奥林匹克项目可知有些项目对于运动员的身体素质要求是有重叠的如铁饼、标枪、铅
球是考察运动员的投掷能力,撑杆跳、跳高、跳远则是考察运动员的弹跳能力,另外还有
100 米栏、100 米是冲刺能力和 400 米、1500 米的耐力能力,单纯的用原始十个变量对总分
分析建立回归模型会出现多重共线性问题,在不剔除变量分析十项运动项目对总得分的影响
的前提下可以用因子分析以提取相互独立的主成分的方法研究得分与运动项目之间的关系。
同时应注意表 3 中标准化回归系数有负值,都出现在跑步的成绩中,意味着跑步时间每增加
一秒得分会下降相应的分数,以 1500 米为例,若只考虑该运动项目,则不管多少跑步时长
得分都是负值,应注意这里不满足统计学上的意义。
3.由因子分析建立运动项目与得分关系
表 4
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity
Approx. Chi-Square
df
Sig.
0.663
137.139
45
0.000
由表4给出的KMO检验和Bartlett球检验的结果可知KMO的值为0.663,根据统计学家Kaiser
给出的标准,KMO的值介于0.6与0.7之间,不太适合做因子分析,Bartlett球检验给出的相
伴概率为0.000,小于显著性水平0.05,因此拒绝Bartlett球检验的零假设0:相关系数矩阵
是单位阵,认为适合做因子分析,检验以Bartlett球检验为主,所以数据可以做因子分析。
图 2:十个主成分的碎石图
由碎石图可知前四个因子解释了原有变量的大部分信息,后面六个变量几乎在一条直线
上下,趋于平缓,所以初步判断挑选四个因子合理。
表 5:旋转因子载荷矩阵
Rotated Component Matrixa
100米(秒)
跳远(米)
铅球(米)
跳高(米)
400米(秒)
110米栏
铁饼(米)
撑杆跳(米)
标枪(米)
1500米(秒)
1
0.811
-0.503
-0.269
-0.135
0.692
0.863
-0.146
-0.645
0.111
0.136
2
-0.059
0.195
0.867
0.078
0.179
-0.064
0.774
0.410
0.870
0.220
3
0.249
-0.580
0.227
-0.076
0.529
0.030
0.375
0.039
-0.229
0.864
4
0.028
0.206
0.029
0.974
0.069
-0.220
0.087
0.116
0.039
-0.041
通过方差极大法对因子载荷矩阵进行旋转,由旋转后的因子载荷矩阵可得到第一个因子
F1 基本反映了“100 米”、“100 米栏、400 米”需要冲刺力的项目,因此命名为冲刺能力;
第二个因子F2 基本反映了“铅球”、“铁饼”、“标枪”需要投掷能力的项目,因此命名为投
掷能力;第三个因子F3 基本反映了“1500 米”需要耐力的项目,因此命名为耐力;第四个
因子F4 基本反映了“跳高”、“跳远”、“撑杆跳”需要弹跳力的项目,因此命名为弹跳能力。
表 6:因子提取信息表
component
1
Total
% of Variance
Cumulative %
3.418
34.182
34.182
Extraction Sums of Squared Loadings
2
3
4
2.606
0.943
0.878
26.064
9.433
8.780
60.246
69.679
78.459
由表6可知冲刺能力因子描述了原有变量总方差的3.418,后面因子描述的总方差即方差
贡献率一次减少,冲刺能力、投掷能力、耐力、弹跳能力这四个因子中冲刺能力因子描述了
原有变量34.182%的信息,后面因子描述的信息一次减少,且通过最后一列的累计方差贡献
率可知四个因子共解释了原有变量的78.459%的信息,进一步说明挑选四个因子的合理性。
表 7:因子得分矩阵
Component Score Coefficient Matrix
100米(秒)
跳远(米)
铅球(米)
跳高(米)
400米(秒)
110米(秒)
铁饼(米)
撑杆跳(米)
标枪(米)
1500米(秒)
1
0.343
-0.032
-0.062
0.091
0.242
0.401
-0.050
-0.265
0.272
-0.153
2
0.041
0.129
0.344
-0.073
0.074
0.125
0.276
0.083
0.511
-0.060
3
-0.021
-0.356
0.066
0.020
0.189
-0.228
0.175
0.134
-0.417
0.609
4
0.156
0.090
-0.088
0.973
0.173
-0.106
0.007
-0.008
-0.056
0.004
由表 7 因子得分矩阵可得因子得分函数:
F1∗冲刺=0.343∗x1∗100 米−0.032∗x2∗跳远−0.062∗x3∗铅球+0.091∗x4∗跳高+0.242∗
x5∗400 米+0.401∗x6∗110 米栏−0.05∗x7∗铁饼−0.265∗x8∗撑杆跳+0.272∗x9∗标枪−
1
0.153∗x10∗1500 米
2∗投掷=0041∗1∗100 米+0.129∗x2∗跳远+0.344∗3∗铅球−0.073∗x4∗跳高+0.07∗
5∗400 米+0.125∗6∗110 米栏+0.276∗7∗铁饼+0.083∗8∗撑杆跳+0.511∗x9∗标枪−
0.06∗x10∗1500 米
2
F3∗耐力=−0.021∗x1∗100 米−0.356∗x2∗跳远+0.066∗x3∗铅球+0.02∗x4∗跳高+0.189∗
x5∗400 米−0.228∗x6∗110 米栏+0.175∗x7∗铁饼+0.134∗x8∗撑杆跳−0.417∗x9∗标枪+
3
0.609∗x10∗1500 米
F4∗弹跳=0.516∗x1∗100 米+0.09∗x2∗跳远−0.088∗x3∗铅球+0.973∗x4∗跳高+0.173∗
x5∗400 米−0.106∗x6∗110 米栏+0.007∗x7∗铁饼−0.008∗x8∗撑杆跳−0.056∗x9∗标枪+
4
0.004∗x10∗1500 米
表 8:因子与得分的线性模型
Model
Unstandardized Coefficients
Coefficientsa
1
(Constant)
冲刺能力
投掷能力
耐力
B
7856.909
-279.814
231.201
-136.766
138.211
Std. Error
9.715
9.866
9.866
9.866
9.866
t
Sig.
Standardized
Coefficients
Beta
808.746
-28.363
23.435
-13.863
14.009
-.674
.557
-.330
.333
.000
.000
.000
.000
.000
弹跳能力
由方程5 可知各因子对成绩总得分的影响程度依次为:
冲刺能力>投掷能力>弹跳能力>耐力
而且可知冲刺代表的 100 米和 110 米栏每增加一秒,总得分就下降 0.674 个百分比;投掷
能力代表的“铅球”、“铁饼”、“标枪”项目投掷每增加一米,总得分就上升 0.557 个百分比;
耐力所代表的 1500 米项目每增加一秒,总得分就下降 0.330 个百分比;弹跳能力代表的“跳
高”、“跳远”、“撑杆跳”项目每增加一米,总得分就上升 0.333 个百分比。可知冲刺能力对
总得分的影响最大。
因子与总分的线性之间线性表达式为:
y=7856.909−279.814∗F1∗冲刺+231.201∗F2∗投掷−136.766∗F3∗耐力+138.211∗F4∗弹跳
联合方程1 2 3 4 5 可得各运动项目和总得分之间的关系式为:
y=7856.909−62.06∗x1∗100 米+99.91∗x2∗跳远+75.69∗x3∗铅球+89.4∗
x4∗跳高 −52.54∗x5∗400 米−66.77∗x6∗110 米栏+54.84∗x7∗铁饼+73.91∗
x8∗撑杆跳+91.33∗x9∗标枪−53.8 ∗x10∗1500 米
由方程 6 可知各体育项目对总得分的影响程度依次为:
跳远>标枪>跳高>铅球>撑杆跳>110 米栏>100 米>铁饼>1500 米>400 米
5
6