中国科技论文在线
http://www.paper.edu.cn
关于篮球球员比赛效率的有序样品聚类
程猛,兰健,黄秋桥,周密
辽宁工程技术大学理学院,辽宁 阜新(123000)
E-mail:oriccheng@hotmail.com
摘 要:本文采集了一支 nba 的球队的所有球员一个赛季的各项技术指标(如得分、篮板、
抢断、封盖、投篮数、罚球数等等),并利用有序样本聚类法(最优分段法)和 nba 效率准
则把这些球员分为超级明星球员、明星球员、普通球员、低效率球员等四类,分类的结果符
合球员实际的表现,分析所得的结果可以为球队老板和经理提供一些参考,同时也是球迷们
对球员评价的一个依据。在实现聚类的过程中选取了合理的方法并使用 matlab 软件进行编
程,本文的程序有较高的集成性,普遍适合本类问题。希望本文能对大家有所帮助,对有序
样本聚类有更深刻的理解。
关键词:有序样本聚类;球员效率准则;matlab
中图分类号:O212.4
1 引言
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是
将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而
不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用
领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相
似性,以及把数据源分类到不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化
数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、
有序样品聚类、有重叠聚类和模糊聚类等。
本文使用的是有序样本聚类法,又称为最优分段法。该方法是由费歇在 1958 年提出的.
它主要适用于样本由一个变量描述的情况.或者将多变量综合成为一个变量来分析。有序样
本聚类法常常被用于系统的评估问题,被用来对样本点进行分类划级。例如,十二个地区的经
济发展指数,排列出来以后,需要划分他们的等级。一种方法是按照行政命令。规定三个经济
发达地区,四个中等发达的地区,三个一般地区,两个发展较差地区。这种行政上的规定往往是
不客观,不合理的。合理的分类应该把发展情况最近似的地区划入同一类。这就是有序样本
聚类的工作思路。本文就是利用有序聚类方法对一些 nba 球员进行评估和分类的。
2 问题的提出
一支篮球队想取得好的成绩,那么球队的经理就必须费劲心思花钱找来好的球员,那些
经理们究竟是如何判别球员的好坏的哪?“[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中
次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次”,本文以这个 nba(美国篮
球职业联盟)常用的效率准则(也称之为单位效率准则)和有序样本聚类知识为工具对一些球
员进行分类,并得出结论,哪些球员值得经理们进行“投资”。这里采取了广为中国球迷喜爱
的休斯顿火箭队队 08-09 赛季球员的相关数据(如下表 1-1)作为样本数据。我们现在开始
给火箭队的球员们分分类。
-1-
中国科技论文在线
http://www.paper.edu.cn
球员
阿尔斯通
阿泰斯特
巴蒂尔
巴里
布鲁克斯
多西
海德
海耶斯
库克
兰德里
洛瑞
麦迪
穆托姆博
斯科拉
韦弗
姚明
表 1 休斯顿火箭队 08-09 赛季球员数据
得分
552
1181
436
208
894
2
106
91
12
638
214
545
16
1044
610
1514
篮板
144
359
285
94
157
1
27
250
5
343
78
154
33
720
113
761
助攻
258
229
137
78
238
1
35
42
1
39
97
175
0
123
71
137
抢断
57
105
48
24
46
0
6
34
0
26
21
42
0
68
40
30
封盖
7
24
54
3
8
0
1
19
3
31
9
15
11
11
8
150
出手次数
522
1037
354
172
783
2
101
113
16
418
162
485
13
799
512
1032
罚中次数 失误次数
命中次数
193
416
145
70
316
1
39
42
5
240
77
188
5
424
229
566
罚球次数
109
262
67
20
172
0
16
19
0
193
29
156
9
258
117
440
86
196
55
19
149
0
14
7
0
157
8
125
6
196
88
381
88
140
48
48
125
0
16
25
2
68
38
69
6
123
59
234
场次
48
69
60
56
80
3
22
71
9
69
28
35
9
82
63
77
上场时间
1591
2452
2031
857
1998
6
322
858
25
1467
608
1181
96
2488
1225
2589
注:数据取自 TOM 鲨威体坛 NBA 数据库
http://live.sports.tom.com/stats.html
3 相关理论基础
3.1 nba 效率准则公式及冒泡法排序
3.1.1 nba 效率准则公式
NBA 对于球员有一个综合判断指数:效率准则(也称之为单位效率准则),这个效率指数
的最基本思路是将一名球员球场表现的折算成为一个可以进行比较的数字,保障了不同位置
的球员都可以在一个通过换算后的同一起跑线上进行比较。
计算这个效率准则的公式为:[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚
球次数-罚球命中次数)-失误次数]/球员上场比赛的场次。这个依据的得出,可以综合判断球
员良性表现,并且参照球员的球场不良表现,接着根据球员出场的次数来得出单场平均的效
率表现。
-2-
中国科技论文在线
http://www.paper.edu.cn
就这个公式而言,是现在 NBA 官方数据中,最常见的一个综合数据指数,而事实上同
样存在不合理的基准,就是某种程度上把进攻指数凌驾在防守指数之上。假设有两名球员同
时计算 5 场比赛的效率指数:
A 球员:150 分 50 篮板 25 助攻 5 抢断 5 封盖,出手次数 150 次命中 100 次,而罚球 60
次命中 50 次,失误 10 次的话,该球员场均 30 分 10 板 5 助攻 1 抢断 1 封盖 2 失误命中率
67%罚球率 83%。该球员的效率指数为:33
B 球员:60 分 75 板 15 助攻 15 抢断 20 封盖,出手次数 70 次命中 45 次,罚球 20 次命
中 15 次,失误同样 10 次的话,该球员场均 12 分 15 篮板 3 助攻 3 抢断 4 封盖 2 失误命中率
64%罚球率 75%。该球员的效率指数仅仅为:29
事实上,前者是标准的全能进攻型球员,而后者是标准的全能防守型球员,只不过因为
相对来说防守型数据抢断与封盖的获得远不如得分这般容易,所以显得这位场均得分 12 分
却在篮板 15 次抢断 3 次封盖 4 次的优秀球员显得远不如进攻性球员。 而这个数据尽管存在
一定的偏袒进攻性,却是现在官方使用的最常用的效率指数,也是相对来说比较客观的一项
比较基准。所以本文以该公式作为对球员评价的重要工具。
3.1.2 冒泡法
冒泡法的目的是按要求从大到小或从小到大排序。他的基本思想是对尚未排序的各元素
从头到尾依次依次比较相邻的两个元素是否逆序(与欲排顺序相反),若逆序就交换这两元
素,经过第一轮比较排序后便可把最大(或最小)的元素排好,然后再用同样的方法把剩下
的元素逐个进行比较,就得到了你所要的顺序。可以看出如果有 N 个元素,那么一共要进
行 n-1 轮比较,第 I 轮要进行 j=n-i 次比较。(如:有 5 个元素,则要进行 5-1 轮比较。第 3
轮则要进行 5-3 次比较)
3.2 最优分割法聚类步骤
设有序样品 x(1),x(2),…,x(n)。他们可以是从小到大排列,也可以是按时间的先后排列。
1)定义类的直径
设 某 类 G 中 包 含 的 样 品 有 就
iiG
,{
n
)(
该类的均值向量为该类的均值向量为
维向量
, 记 为
,...,
)}(
m
为
X
X
X
X
>
{
)2(
+
=
i
)
,
)1(
j
(
i
)(
j
j
,...,1
}.
1
∑
i
=+−
t
表示这一类的直径,常用的直径有:
j
j
),(
X
1
t
)(
i
=
X
G
用
iD
iD
j
),(
=
j
∑
t
=
i
(
X
t
)(
−
X
G
()
′
X
t
)(
−
X
)
G
(2-1)
当 m=1 时,也可以定义直径为
iD
j
),(
=
j
∑
t
=
i
X
t
)(
−
~
X
G
,其中 GX~
是这一类数据的中位数。
2)定义分类的损失函数
用 b(n,k)表示将 n 个有序的样品分为 k 类的某种分法:
-3-
中国科技论文在线
http://www.paper.edu.cn
G
=
1
G
=
2
..........
G
=
k
i
i
i
},1
,...,1
,{
−
+
11
2
i
i
i
,{
,...,1
},1
+
−
2
2
3
..........
.....
..........
i
n
i
,{
},
,...,1
+
−
k
k
i
k
1
...
<<<<=
其中分点为
定义上述分类法的损失函数为
i
3
i
2
i
1
i
k
=<
n
i
k
+
1
−
(1
即
i
k
+
1
+=
n
)1
.
knbL
,([
)]
=
k
∑
t
1
=
tiiD
,(
+ −
1
)1
(2-2)
当 n,k 固定时,
knb
),(
)]
knbL
,([
,使分类损失函数 L 达最小。记
越小,即表示各类的离差平方和越小,分类越合理,因此
是使(2-2)式达到极小的分类
),( knP
)]
knbL
,([
的递推公式
要寻找一种分法
法。
3)
费希尔算法最核心的部分是利用以下两个递推公式:
njD
,(
)]1
nPL
[
)]2,(
knPL
[
,(
)1
+−
k
jD
,1({min
nj
2
≤≤
jPL
(
[{min
k
nj
≤≤
)]
,1
+
−
−
=
=
)},
njD
,(
(2-3)
).
4)最优解得求法
若分类数 k 是已知的,求分类法 b(n,k),使它在损失函数意义下达到最小,其求法如下:
首先,找出分点 kj ,使递推公式(2-3)达到最小,即
)]1
+
njD
),
knPL
,(
[
jPL
(
[
)]
,1
−
−
k
(
k
k
−
)]1
=
jPL
(
[
k
1
−
−
,1
k
−
)]2
+
类似的方法依次可得到所有类
k
jD
(
−
kGGG
,
1
j
,
k
1
−
,...
2
)1
,得到
,这就是
=
n
j
}.
,...1
+
k
k
jPL
(
[
,
k
1
−
j
}.1
,...1
−
k
=
G
k
j
,{
于是得第 k 类
k
然后找 1−kj ,使它满足
+
{
j
k
1
−
1
−
=
j
k
G
k
,
第 k-1 类
1
−
我们欲求的最优解。
4 实际问题应用
522 193 109 86 88 48;1181 359 229 105 24 1037 416
4.1 求球员综合值(效率值)并排序
P=[552 144 258 57 7
262 196 140 69;436 285 137 48 54 354 145 67 55 48 60;208 94 78 24
783 316 172 149 125 80;2 1
172 70 20 19 48 56;894 157 238 46 8
3
101 39 16 14 16
1
0
1
22;91
1
16 5
5
0
343 39 26 31
6
0
9;638
0
0
418 240 193 157 68 69;214
162 77 29 8
38 28;545
154 175 42 15 485 188 156 125 69 35;1044 720 123 68 11 799 424 258
196 123 82;610
512 229 117 88 59 63;1514 761 137 30
150 1032 566 440 381 234 77];
27 35 6
0
3;106
25 71;12
250 42 34 19 113 42 19 7
11 13 5
6
9
2
78 97 21 9
113 71 40 8
9;16 33 0
0
0
3
2
1
0
-4-
中国科技论文在线
http://www.paper.edu.cn
矩阵 P 为由 1-1 得到的球员数据样本,依据效率准则公式:[(得分+篮板+助攻+抢断+封
盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次分别计
算综合值(效率值)并用冒泡法进行排序最终得到向量 X。(本部分 matlab 代码及注解见附
录 A)
X=[0.88889 1
11.522 15.257
9.1 9.8214
23.805]
17.146
4.3182
4.5714
4.6197
4.7778
7.4762
15.522
11.517
4.2 计算直径、最小损失函数并确定分类数
4.2.1 计算直径
计算直径
j
)}
,结果见表 3-1,因每个样品只有一个指标,由 2-1 式的定义,故有
iD
,({
j
∑
t
i
=
=
(
X
iD
j
),(
2
0
−
X
G
2
)
.
t
)(
表 2 直径 D(i,j)
3
4
5
6
7
8
9
10
11
12
13
14
15
1
0
0
0
0
0
0
0
0
0
i
j
2 0.0061728
3
4
5
6
7
8
9
10
11
12
13
14
15
16
7.5942 5.5052
12.291 7.9432 0.032067
15.256 9.2563 0.052463 0.0011659
17.659 10.315 0.10905 0.023298 0.012491
32.162 21.228 6.8575
55.367 39.678 19.842
79.656 58.991 33.631
115.85 88.956 56.687
145.52 112.97 74.659
175.44 137.27 93.021
241.39 194.69 141.21
301.82 246.89 184.64
379.38 315.03 242.75
595.02 514.33 424.31
5.9871
17.17
28.654
48.312
63.091
78.151
120.68
158.52
209.93
378.77
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5.1553 3.6407
14.214 9.5333 1.3184
23.075 15.015 2.8858 0.26023
38.899 26.102 8.4242 3.0782 1.4369
50.234 33.519 11.764 4.4976 1.9216 1.29E-05
61.807 41.264 15.632 6.4239 2.8101 0.18199 0.13516
98.19 70.619 37.154 22.977 15.814 9.7074
130.07 95.897 55.345 36.545 25.964
16.61
174.37 132.36 83.363 58.726 43.577 29.774
329.41 271.85 205.5 167.54 140.86 114.99
8.1876 5.1696
13.186 7.5067 0.035006
23.329 13.697 2.0928
98.656 75.838 48.076
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1.3197
0
38.532 22.17
,即分别计算将 l 个样品分成
4.4.2 计算最小损失函数
15
l
k
2,16
3
)]},
klPL
,(
[{
≤≤
计算最小分类损失函数
≤≤
两类、三类…时,最优分割的损失函数,所有结果列于表 3
-5-
中国科技论文在线
http://www.paper.edu.cn
i
j
3
4
5
6
7
8
9
10
11
12
13
14
15
16
2
3
0.006
1728
0.038
24
0.058
636
0.115
22
6.863
7
18.97
7
20.54
4
26.08
3
29.42
2
33.29
1
54.81
2
68.70
7
90.88
8
194.6
5
0
0.006
1728
0.007
3388
0.029
471
0.115
22
1.433
6
3.001
8.539
4
11.36
1
13.28
8
29.84
33.32
6
35.38
3
81.36
6
表 3 最小分类损失函数 L[P(l,k)]
4
0
0
0.001
1659
0.007
3388
0.029
471
0.115
22
0.375
45
2.870
5
3.001
3.183
12.70
8
13.32
3
15.38
35.38
3
5
0
0
0
0.001
1659
0.007
3388
0.029
471
0.115
22
0.375
45
0.375
46
0.557
44
3.183
3.218
5.275
8
15.38
6
0
0
0
0
0.001
1659
0.007
3388
0.029
471
0.115
22
0.115
23
0.297
21
0.557
44
0.592
45
2.650
2
5.275
8
7
0
0
0
0
0
0.001
1659
0.007
3388
0.029
471
0.029
484
0.115
23
0.297
21
0.332
22
0.592
45
2.650
2
8
0
0
0
0
0
0
0.001
1659
0.007
3388
0.007
3517
0.029
484
0.115
23
0.150
24
0.332
22
0.592
45
9
0
0
0
0
0
0
0
0.001
1659
0.001
1788
0.007
3517
0.029
484
0.064
49
0.150
24
0.332
22
10
11
12
13
14
15
0
0
0
0
0
0
0
0
1.29E
-05
0.001
1788
0.007
3517
0.029
484
0.064
49
0.150
24
0
0
0
0
0
0
0
0
0
1.29E
-05
0.001
1788
0.007
3517
0.029
484
0.064
49
0
0
0
0
0
0
0
0
0
0
1.29E
-05
0.001
1788
0.007
3517
0.029
484
0
0
0
0
0
0
0
0
0
0
0
1.29E
-05
0.001
1788
0.007
3517
0
0
0
0
0
0
0
0
0
0
0
0
1.29E
-05
0.001
1788
0
0
0
0
0
0
0
0
0
0
0
0
0
1.29E
-05
4.2.3 确定分类数
knPL
[
,(
作出
)]
随 k 变化的趋势图,从该输出可以看到曲线在 k=3,4 处拐弯所以分为
三类或四类为好,这里我们分为四类。
-6-
中国科技论文在线
http://www.paper.edu.cn
图 1 随 k 变化的趋势图
4.2 求最优分类
查的
结合矩阵 J (见下表 3-4)和最小分类损失函数
PL
[
求最优分类,要分四类,即 k=4,
,对应 J 的值为 16,这说明最优解得分类的损失函数是 35.383,
G =
。再对其余的 15 个样品考虑分为三类的最优分法
383.35
)]4,16(
klPL
,(
[
)]
=
}
x
{ 16
4
2
9
1
3
,
,
8
,
}
=
,
x
11
x
12
.35
383
G =
)]3,15(
PL
)]2,12(
[
,
,
分类时首先分出了第四类
PL
G =
[
{
,对应 J 中的值为 13,所以可得
291.33
=
12 个 样 品 分 为 两 类 的 最 优 分 法 ,
G =
xxxx
xx
,{
,
,
}
。
1
4
5
6
2
xxxxxx
,{
,
,
},
1
6
xxxx
,{
,
7
10
从 而 求 得 最 优 分 类 P(16 , 4) :
x
,
14
结合表 1-1 得如下结论:
超级明星球员:姚明
明星球员:阿泰斯特、麦迪、斯科拉
普通球员:韦弗、布鲁克斯、洛瑞、巴蒂尔、兰德里、阿尔斯通
低效率球员:库克、多西、海德、巴里、穆托姆博、海耶斯
(附录 C 为最优分类过程的 matlab 实现)
{ 16x
, }
x
15
,
3
,
}
,
4
5
2
3
{
x
13
,
,
}
x
14
x
15
x
,最后对剩下的
13
对 应 J 的 值 为 7 , 得 到
xxxx
,{
,
7
10
,
9
8
,
x
11
,
x
12
}
,
-7-
中国科技论文在线
http://www.paper.edu.cn
i
j
3
4
5
6
7
8
9
10
11
12
13
14
15
16
2
3
3
3
3
3
7
7
7
7
7
7
8
8
10
3
0
4
4
4
7
7
7
7
8
8
8
13
13
13
4
0
0
4
6
7
8
8
9
10
10
10
13
13
16
5
0
0
0
6
7
8
9
10
10
10
13
13
13
16
6
0
0
0
0
7
8
9
10
10
10
13
13
13
16
5 总结
表 4 矩阵 J
7
8
0
0
0
0
0
8
9
10
10
12
13
13
15
16
0
0
0
0
0
0
9
10
10
12
13
13
15
16
9
0
0
0
0
0
0
0
10
10
12
13
13
15
16
10
0
0
0
0
0
0
0
0
10
12
13
14
15
16
11
0
0
0
0
0
0
0
0
0
12
13
14
15
16
12
0
0
0
0
0
0
0
0
0
0
13
14
15
16
13
0
0
0
0
0
0
0
0
0
0
0
14
15
16
14
0
0
0
0
0
0
0
0
0
0
0
0
15
16
15
0
0
0
0
0
0
0
0
0
0
0
0
0
16
从结果看通过最优分割法得到的分类与实际相吻合,姚明是上赛季火箭队唯一入选全明
星的球员,分在超级明星一组实至名归,而原来的超级明星麦迪由于伤病的原因没有发挥出
全部的实力,但比一般的球员还是要好一些,阿泰斯特由于是初到火箭不久,与球队有磨合
问题所以发挥一般,斯科拉有稳定的得分,他们同分在明星一组也是合理的。普通球员中布
鲁克斯、洛瑞、兰德里均为年轻球员,都有上升的空间,所以他们还是值得培养的,巴蒂尔、
阿尔斯通是 nba 的“老兵”他们也同样是合格的角色球员。再看看低效率球员这一组,除去海
耶斯外的 5 人都在今夏被火箭队的总经理穆雷给交易或退役,他们都是在赛场上无法获得稳
定的出场时间的板凳球员。在这里唯一值得商榷的是巴蒂尔和海耶斯两人,他们都是防守远
强于进攻的球员,正如在前文 2.1.1 中所说,这个效率准则公式更加偏袒进攻球员。
参考文献
[1] 高慧璇.多元统计分析.北京:北京大学出版社,2008
[2] 陆璇,叶俊.实用多元统计分析.北京:清华大学出版社, 2008
[3] 朱永生.实验数据多元统计分析.北京:科学出版社, 2009
Competes the efficiency order sample cluster about the
basketball player
Cheng Meng, Lan Jian, Huang Qiuqiao, Zhou Mi
School of technology, Liaoning technical university, Liaoning Fuxin (123000)
Abstract
This article gathered a nba team's all player season each technical specification (for example score,
backboard, to snatch breaks, sealing, shooting number, penalty kick number and so on), and (the most
superior stepwise method) and nba the efficiency criterion divided into using the ordered sample cluster
law these players the superstar player, the star player, the ordinary player, the low efficiency player and
so on four kinds, the classified result tallies the player actual performance, analyzed the obtained result
-8-