关于篮球球员比赛效率的有序样品聚类.pdf-资料库

中国科技论文在线 http://www.paper.edu.cn 关于篮球球员比赛效率的有序样品聚类程猛，兰健，黄秋桥，周密辽宁工程技术大学理学院，辽宁阜新(123000) E-mail:oriccheng@hotmail.com 摘要：本文采集了一支 nba 的球队的所有球员一个赛季的各项技术指标（如得分、篮板、抢断、封盖、投篮数、罚球数等等），并利用有序样本聚类法（最优分段法）和 nba 效率准则把这些球员分为超级明星球员、明星球员、普通球员、低效率球员等四类，分类的结果符合球员实际的表现，分析所得的结果可以为球队老板和经理提供一些参考，同时也是球迷们对球员评价的一个依据。在实现聚类的过程中选取了合理的方法并使用 matlab 软件进行编程，本文的程序有较高的集成性，普遍适合本类问题。希望本文能对大家有所帮助，对有序样本聚类有更深刻的理解。关键词：有序样本聚类；球员效率准则；matlab 中图分类号：O212.4 1 引言聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。本文使用的是有序样本聚类法，又称为最优分段法。该方法是由费歇在 1958 年提出的. 它主要适用于样本由一个变量描述的情况.或者将多变量综合成为一个变量来分析。有序样本聚类法常常被用于系统的评估问题,被用来对样本点进行分类划级。例如,十二个地区的经济发展指数,排列出来以后,需要划分他们的等级。一种方法是按照行政命令。规定三个经济发达地区,四个中等发达的地区,三个一般地区,两个发展较差地区。这种行政上的规定往往是不客观,不合理的。合理的分类应该把发展情况最近似的地区划入同一类。这就是有序样本聚类的工作思路。本文就是利用有序聚类方法对一些 nba 球员进行评估和分类的。 2 问题的提出一支篮球队想取得好的成绩，那么球队的经理就必须费劲心思花钱找来好的球员，那些经理们究竟是如何判别球员的好坏的哪？“[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次”，本文以这个 nba（美国篮球职业联盟）常用的效率准则(也称之为单位效率准则)和有序样本聚类知识为工具对一些球员进行分类，并得出结论，哪些球员值得经理们进行“投资”。这里采取了广为中国球迷喜爱的休斯顿火箭队队 08-09 赛季球员的相关数据（如下表 1-1）作为样本数据。我们现在开始给火箭队的球员们分分类。 -1-

中国科技论文在线 http://www.paper.edu.cn 球员阿尔斯通阿泰斯特巴蒂尔巴里布鲁克斯多西海德海耶斯库克兰德里洛瑞麦迪穆托姆博斯科拉韦弗姚明表 1 休斯顿火箭队 08-09 赛季球员数据得分 552 1181 436 208 894 2 106 91 12 638 214 545 16 1044 610 1514 篮板 144 359 285 94 157 1 27 250 5 343 78 154 33 720 113 761 助攻 258 229 137 78 238 1 35 42 1 39 97 175 0 123 71 137 抢断 57 105 48 24 46 0 6 34 0 26 21 42 0 68 40 30 封盖 7 24 54 3 8 0 1 19 3 31 9 15 11 11 8 150 出手次数 522 1037 354 172 783 2 101 113 16 418 162 485 13 799 512 1032 罚中次数失误次数命中次数 193 416 145 70 316 1 39 42 5 240 77 188 5 424 229 566 罚球次数 109 262 67 20 172 0 16 19 0 193 29 156 9 258 117 440 86 196 55 19 149 0 14 7 0 157 8 125 6 196 88 381 88 140 48 48 125 0 16 25 2 68 38 69 6 123 59 234 场次 48 69 60 56 80 3 22 71 9 69 28 35 9 82 63 77 上场时间 1591 2452 2031 857 1998 6 322 858 25 1467 608 1181 96 2488 1225 2589 注：数据取自 TOM 鲨威体坛 NBA 数据库 http://live.sports.tom.com/stats.html 3 相关理论基础 3.1 nba 效率准则公式及冒泡法排序 3.1.1 nba 效率准则公式 NBA 对于球员有一个综合判断指数：效率准则(也称之为单位效率准则)，这个效率指数的最基本思路是将一名球员球场表现的折算成为一个可以进行比较的数字，保障了不同位置的球员都可以在一个通过换算后的同一起跑线上进行比较。计算这个效率准则的公式为：[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次。这个依据的得出，可以综合判断球员良性表现，并且参照球员的球场不良表现，接着根据球员出场的次数来得出单场平均的效率表现。 -2-

中国科技论文在线 http://www.paper.edu.cn 就这个公式而言，是现在 NBA 官方数据中，最常见的一个综合数据指数，而事实上同样存在不合理的基准，就是某种程度上把进攻指数凌驾在防守指数之上。假设有两名球员同时计算 5 场比赛的效率指数： A 球员：150 分 50 篮板 25 助攻 5 抢断 5 封盖，出手次数 150 次命中 100 次，而罚球 60 次命中 50 次，失误 10 次的话，该球员场均 30 分 10 板 5 助攻 1 抢断 1 封盖 2 失误命中率 67%罚球率 83%。该球员的效率指数为：33 B 球员：60 分 75 板 15 助攻 15 抢断 20 封盖，出手次数 70 次命中 45 次，罚球 20 次命中 15 次，失误同样 10 次的话，该球员场均 12 分 15 篮板 3 助攻 3 抢断 4 封盖 2 失误命中率 64%罚球率 75%。该球员的效率指数仅仅为：29 事实上，前者是标准的全能进攻型球员，而后者是标准的全能防守型球员，只不过因为相对来说防守型数据抢断与封盖的获得远不如得分这般容易，所以显得这位场均得分 12 分却在篮板 15 次抢断 3 次封盖 4 次的优秀球员显得远不如进攻性球员。而这个数据尽管存在一定的偏袒进攻性，却是现在官方使用的最常用的效率指数，也是相对来说比较客观的一项比较基准。所以本文以该公式作为对球员评价的重要工具。 3.1.2 冒泡法冒泡法的目的是按要求从大到小或从小到大排序。他的基本思想是对尚未排序的各元素从头到尾依次依次比较相邻的两个元素是否逆序（与欲排顺序相反），若逆序就交换这两元素，经过第一轮比较排序后便可把最大（或最小）的元素排好，然后再用同样的方法把剩下的元素逐个进行比较，就得到了你所要的顺序。可以看出如果有 N 个元素，那么一共要进行 n-1 轮比较，第 I 轮要进行 j=n-i 次比较。（如：有 5 个元素，则要进行 5-1 轮比较。第 3 轮则要进行 5-3 次比较） 3.2 最优分割法聚类步骤设有序样品 x(1),x(2),…,x(n)。他们可以是从小到大排列，也可以是按时间的先后排列。 1)定义类的直径设某类 G 中包含的样品有就 iiG ,{ n )( 该类的均值向量为该类的均值向量为维向量，记为 ,..., )}( m 为 X X X X > { )2( + = i ) , )1( j ( i )( j j ,...,1 }. 1 ∑ i =+− t 表示这一类的直径，常用的直径有： j j ),( X 1 t )( i = X G 用 iD iD j ),( = j ∑ t = i ( X t )( − X G () ′ X t )( − X ) G (2-1) 当 m=1 时，也可以定义直径为 iD j ),( = j ∑ t = i X t )( − ~ X G ，其中 GX~ 是这一类数据的中位数。 2)定义分类的损失函数用 b(n,k)表示将 n 个有序的样品分为 k 类的某种分法： -3-

中国科技论文在线 http://www.paper.edu.cn G = 1 G = 2 .......... G = k i i i },1 ,...,1 ,{ − + 11 2 i i i ,{ ,...,1 },1 + − 2 2 3 .......... ..... .......... i n i ,{ }, ,...,1 + − k k i k 1 ... <<<<= 其中分点为定义上述分类法的损失函数为 i 3 i 2 i 1 i k =< n i k + 1 − (1 即 i k + 1 += n )1 . knbL ,([ )] = k ∑ t 1 = tiiD ,( + − 1 )1 (2-2) 当 n，k 固定时， knb ),( )] knbL ,([ ，使分类损失函数 L 达最小。记越小，即表示各类的离差平方和越小，分类越合理，因此是使(2-2)式达到极小的分类 ),( knP )] knbL ,([ 的递推公式要寻找一种分法法。 3) 费希尔算法最核心的部分是利用以下两个递推公式： njD ,( )]1 nPL [ )]2,( knPL [ ,( )1 +− k jD ,1({min nj 2 ≤≤ jPL ( [{min k nj ≤≤ )] ,1 + − − = = )}, njD ,( (2-3) ). 4)最优解得求法若分类数 k 是已知的，求分类法 b(n,k)，使它在损失函数意义下达到最小，其求法如下：首先，找出分点 kj ，使递推公式(2-3)达到最小，即 )]1 + njD ), knPL ,( [ jPL ( [ )] ,1 − − k ( k k − )]1 = jPL ( [ k 1 − − ,1 k − )]2 + 类似的方法依次可得到所有类 k jD ( − kGGG , 1 j , k 1 − ,... 2 )1 ，得到，这就是 = n j }. ,...1 + k k jPL ( [ , k 1 − j }.1 ,...1 − k = G k j ,{ 于是得第 k 类 k 然后找 1−kj ，使它满足 + { j k 1 − 1 − = j k G k , 第 k-1 类 1 − 我们欲求的最优解。 4 实际问题应用 522 193 109 86 88 48;1181 359 229 105 24 1037 416 4.1 求球员综合值（效率值）并排序 P=[552 144 258 57 7 262 196 140 69;436 285 137 48 54 354 145 67 55 48 60;208 94 78 24 783 316 172 149 125 80;2 1 172 70 20 19 48 56;894 157 238 46 8 3 101 39 16 14 16 1 0 1 22;91 1 16 5 5 0 343 39 26 31 6 0 9;638 0 0 418 240 193 157 68 69;214 162 77 29 8 38 28;545 154 175 42 15 485 188 156 125 69 35;1044 720 123 68 11 799 424 258 196 123 82;610 512 229 117 88 59 63;1514 761 137 30 150 1032 566 440 381 234 77]; 27 35 6 0 3;106 25 71;12 250 42 34 19 113 42 19 7 11 13 5 6 9 2 78 97 21 9 113 71 40 8 9;16 33 0 0 0 3 2 1 0 -4-

中国科技论文在线 http://www.paper.edu.cn 矩阵 P 为由 1-1 得到的球员数据样本，依据效率准则公式：[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次分别计算综合值（效率值）并用冒泡法进行排序最终得到向量 X。（本部分 matlab 代码及注解见附录 A） X=[0.88889 1 11.522 15.257 9.1 9.8214 23.805] 17.146 4.3182 4.5714 4.6197 4.7778 7.4762 15.522 11.517 4.2 计算直径、最小损失函数并确定分类数 4.2.1 计算直径计算直径 j )} ,结果见表 3-1，因每个样品只有一个指标，由 2-1 式的定义，故有 iD ,({ j ∑ t i = = ( X iD j ),( 2 0 − X G 2 ) . t )( 表 2 直径 D(i，j) 3 4 5 6 7 8 9 10 11 12 13 14 15 1 0 0 0 0 0 0 0 0 0 i j 2 0.0061728 3 4 5 6 7 8 9 10 11 12 13 14 15 16 7.5942 5.5052 12.291 7.9432 0.032067 15.256 9.2563 0.052463 0.0011659 17.659 10.315 0.10905 0.023298 0.012491 32.162 21.228 6.8575 55.367 39.678 19.842 79.656 58.991 33.631 115.85 88.956 56.687 145.52 112.97 74.659 175.44 137.27 93.021 241.39 194.69 141.21 301.82 246.89 184.64 379.38 315.03 242.75 595.02 514.33 424.31 5.9871 17.17 28.654 48.312 63.091 78.151 120.68 158.52 209.93 378.77 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5.1553 3.6407 14.214 9.5333 1.3184 23.075 15.015 2.8858 0.26023 38.899 26.102 8.4242 3.0782 1.4369 50.234 33.519 11.764 4.4976 1.9216 1.29E-05 61.807 41.264 15.632 6.4239 2.8101 0.18199 0.13516 98.19 70.619 37.154 22.977 15.814 9.7074 130.07 95.897 55.345 36.545 25.964 16.61 174.37 132.36 83.363 58.726 43.577 29.774 329.41 271.85 205.5 167.54 140.86 114.99 8.1876 5.1696 13.186 7.5067 0.035006 23.329 13.697 2.0928 98.656 75.838 48.076 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.3197 0 38.532 22.17 ，即分别计算将 l 个样品分成 4.4.2 计算最小损失函数 15 l k 2,16 3 )]}, klPL ,( [{ ≤≤ 计算最小分类损失函数 ≤≤ 两类、三类…时，最优分割的损失函数，所有结果列于表 3 -5-

中国科技论文在线 http://www.paper.edu.cn i j 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 3 0.006 1728 0.038 24 0.058 636 0.115 22 6.863 7 18.97 7 20.54 4 26.08 3 29.42 2 33.29 1 54.81 2 68.70 7 90.88 8 194.6 5 0 0.006 1728 0.007 3388 0.029 471 0.115 22 1.433 6 3.001 8.539 4 11.36 1 13.28 8 29.84 33.32 6 35.38 3 81.36 6 表 3 最小分类损失函数 L[P(l,k)] 4 0 0 0.001 1659 0.007 3388 0.029 471 0.115 22 0.375 45 2.870 5 3.001 3.183 12.70 8 13.32 3 15.38 35.38 3 5 0 0 0 0.001 1659 0.007 3388 0.029 471 0.115 22 0.375 45 0.375 46 0.557 44 3.183 3.218 5.275 8 15.38 6 0 0 0 0 0.001 1659 0.007 3388 0.029 471 0.115 22 0.115 23 0.297 21 0.557 44 0.592 45 2.650 2 5.275 8 7 0 0 0 0 0 0.001 1659 0.007 3388 0.029 471 0.029 484 0.115 23 0.297 21 0.332 22 0.592 45 2.650 2 8 0 0 0 0 0 0 0.001 1659 0.007 3388 0.007 3517 0.029 484 0.115 23 0.150 24 0.332 22 0.592 45 9 0 0 0 0 0 0 0 0.001 1659 0.001 1788 0.007 3517 0.029 484 0.064 49 0.150 24 0.332 22 10 11 12 13 14 15 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0.029 484 0.064 49 0.150 24 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0.029 484 0.064 49 0 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0.029 484 0 0 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0 0 0 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0 0 0 0 0 0 0 0 0 0 0 0 0 1.29E -05 4.2.3 确定分类数 knPL [ ,( 作出 )] 随 k 变化的趋势图，从该输出可以看到曲线在 k=3，4 处拐弯所以分为三类或四类为好，这里我们分为四类。 -6-

中国科技论文在线 http://www.paper.edu.cn 图 1 随 k 变化的趋势图 4.2 求最优分类查的结合矩阵 J (见下表 3-4)和最小分类损失函数 PL [ 求最优分类，要分四类，即 k=4，，对应 J 的值为 16，这说明最优解得分类的损失函数是 35.383， G = 。再对其余的 15 个样品考虑分为三类的最优分法 383.35 )]4,16( klPL ,( [ )] = } x { 16 4 2 9 1 3 , , 8 , } = ， x 11 x 12 .35 383 G = )]3,15( PL )]2,12( [ , , 分类时首先分出了第四类 PL G = [ { ，对应 J 中的值为 13，所以可得 291.33 = 12 个样品分为两类的最优分法， G = xxxx xx ,{ , , } 。 1 4 5 6 2 xxxxxx ,{ , , }, 1 6 xxxx ,{ , 7 10 从而求得最优分类 P(16 ， 4) ： x , 14 结合表 1-1 得如下结论：超级明星球员：姚明明星球员：阿泰斯特、麦迪、斯科拉普通球员：韦弗、布鲁克斯、洛瑞、巴蒂尔、兰德里、阿尔斯通低效率球员：库克、多西、海德、巴里、穆托姆博、海耶斯 (附录 C 为最优分类过程的 matlab 实现) { 16x ， } x 15 ， 3 , } , 4 5 2 3 { x 13 , , } x 14 x 15 x ，最后对剩下的 13 对应 J 的值为 7 ，得到 xxxx ,{ , 7 10 , 9 8 , x 11 , x 12 } ， -7-

中国科技论文在线 http://www.paper.edu.cn i j 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 3 3 3 3 3 7 7 7 7 7 7 8 8 10 3 0 4 4 4 7 7 7 7 8 8 8 13 13 13 4 0 0 4 6 7 8 8 9 10 10 10 13 13 16 5 0 0 0 6 7 8 9 10 10 10 13 13 13 16 6 0 0 0 0 7 8 9 10 10 10 13 13 13 16 5 总结表 4 矩阵 J 7 8 0 0 0 0 0 8 9 10 10 12 13 13 15 16 0 0 0 0 0 0 9 10 10 12 13 13 15 16 9 0 0 0 0 0 0 0 10 10 12 13 13 15 16 10 0 0 0 0 0 0 0 0 10 12 13 14 15 16 11 0 0 0 0 0 0 0 0 0 12 13 14 15 16 12 0 0 0 0 0 0 0 0 0 0 13 14 15 16 13 0 0 0 0 0 0 0 0 0 0 0 14 15 16 14 0 0 0 0 0 0 0 0 0 0 0 0 15 16 15 0 0 0 0 0 0 0 0 0 0 0 0 0 16 从结果看通过最优分割法得到的分类与实际相吻合，姚明是上赛季火箭队唯一入选全明星的球员，分在超级明星一组实至名归，而原来的超级明星麦迪由于伤病的原因没有发挥出全部的实力，但比一般的球员还是要好一些，阿泰斯特由于是初到火箭不久，与球队有磨合问题所以发挥一般，斯科拉有稳定的得分，他们同分在明星一组也是合理的。普通球员中布鲁克斯、洛瑞、兰德里均为年轻球员，都有上升的空间，所以他们还是值得培养的，巴蒂尔、阿尔斯通是 nba 的“老兵”他们也同样是合格的角色球员。再看看低效率球员这一组，除去海耶斯外的 5 人都在今夏被火箭队的总经理穆雷给交易或退役，他们都是在赛场上无法获得稳定的出场时间的板凳球员。在这里唯一值得商榷的是巴蒂尔和海耶斯两人，他们都是防守远强于进攻的球员，正如在前文 2.1.1 中所说，这个效率准则公式更加偏袒进攻球员。参考文献 [1] 高慧璇.多元统计分析.北京：北京大学出版社，2008 [2] 陆璇，叶俊.实用多元统计分析.北京:清华大学出版社, 2008 [3] 朱永生.实验数据多元统计分析.北京:科学出版社, 2009 Competes the efficiency order sample cluster about the basketball player Cheng Meng, Lan Jian, Huang Qiuqiao, Zhou Mi School of technology, Liaoning technical university, Liaoning Fuxin (123000) Abstract This article gathered a nba team's all player season each technical specification (for example score, backboard, to snatch breaks, sealing, shooting number, penalty kick number and so on), and (the most superior stepwise method) and nba the efficiency criterion divided into using the ordered sample cluster law these players the superstar player, the star player, the ordinary player, the low efficiency player and so on four kinds, the classified result tallies the player actual performance, analyzed the obtained result -8-

资料库

关于篮球球员比赛效率的有序样品聚类.pdf

相关推荐

开发技术

热门标签

最新资料