logo资料库

关于篮球球员比赛效率的有序样品聚类.pdf

第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
资料共12页,剩余部分请下载后查看
中国科技论文在线 http://www.paper.edu.cn 关于篮球球员比赛效率的有序样品聚类 程猛,兰健,黄秋桥,周密 辽宁工程技术大学理学院,辽宁 阜新(123000) E-mail:oriccheng@hotmail.com 摘 要:本文采集了一支 nba 的球队的所有球员一个赛季的各项技术指标(如得分、篮板、 抢断、封盖、投篮数、罚球数等等),并利用有序样本聚类法(最优分段法)和 nba 效率准 则把这些球员分为超级明星球员、明星球员、普通球员、低效率球员等四类,分类的结果符 合球员实际的表现,分析所得的结果可以为球队老板和经理提供一些参考,同时也是球迷们 对球员评价的一个依据。在实现聚类的过程中选取了合理的方法并使用 matlab 软件进行编 程,本文的程序有较高的集成性,普遍适合本类问题。希望本文能对大家有所帮助,对有序 样本聚类有更深刻的理解。 关键词:有序样本聚类;球员效率准则;matlab 中图分类号:O212.4 1 引言 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。 它是一种重要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是 将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而 不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。 聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用 领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相 似性,以及把数据源分类到不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化 数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、 有序样品聚类、有重叠聚类和模糊聚类等。 本文使用的是有序样本聚类法,又称为最优分段法。该方法是由费歇在 1958 年提出的. 它主要适用于样本由一个变量描述的情况.或者将多变量综合成为一个变量来分析。有序样 本聚类法常常被用于系统的评估问题,被用来对样本点进行分类划级。例如,十二个地区的经 济发展指数,排列出来以后,需要划分他们的等级。一种方法是按照行政命令。规定三个经济 发达地区,四个中等发达的地区,三个一般地区,两个发展较差地区。这种行政上的规定往往是 不客观,不合理的。合理的分类应该把发展情况最近似的地区划入同一类。这就是有序样本 聚类的工作思路。本文就是利用有序聚类方法对一些 nba 球员进行评估和分类的。 2 问题的提出 一支篮球队想取得好的成绩,那么球队的经理就必须费劲心思花钱找来好的球员,那些 经理们究竟是如何判别球员的好坏的哪?“[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中 次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次”,本文以这个 nba(美国篮 球职业联盟)常用的效率准则(也称之为单位效率准则)和有序样本聚类知识为工具对一些球 员进行分类,并得出结论,哪些球员值得经理们进行“投资”。这里采取了广为中国球迷喜爱 的休斯顿火箭队队 08-09 赛季球员的相关数据(如下表 1-1)作为样本数据。我们现在开始 给火箭队的球员们分分类。 -1-
中国科技论文在线 http://www.paper.edu.cn 球员 阿尔斯通 阿泰斯特 巴蒂尔 巴里 布鲁克斯 多西 海德 海耶斯 库克 兰德里 洛瑞 麦迪 穆托姆博 斯科拉 韦弗 姚明 表 1 休斯顿火箭队 08-09 赛季球员数据 得分 552 1181 436 208 894 2 106 91 12 638 214 545 16 1044 610 1514 篮板 144 359 285 94 157 1 27 250 5 343 78 154 33 720 113 761 助攻 258 229 137 78 238 1 35 42 1 39 97 175 0 123 71 137 抢断 57 105 48 24 46 0 6 34 0 26 21 42 0 68 40 30 封盖 7 24 54 3 8 0 1 19 3 31 9 15 11 11 8 150 出手次数 522 1037 354 172 783 2 101 113 16 418 162 485 13 799 512 1032 罚中次数 失误次数 命中次数 193 416 145 70 316 1 39 42 5 240 77 188 5 424 229 566 罚球次数 109 262 67 20 172 0 16 19 0 193 29 156 9 258 117 440 86 196 55 19 149 0 14 7 0 157 8 125 6 196 88 381 88 140 48 48 125 0 16 25 2 68 38 69 6 123 59 234 场次 48 69 60 56 80 3 22 71 9 69 28 35 9 82 63 77 上场时间 1591 2452 2031 857 1998 6 322 858 25 1467 608 1181 96 2488 1225 2589 注:数据取自 TOM 鲨威体坛 NBA 数据库 http://live.sports.tom.com/stats.html 3 相关理论基础 3.1 nba 效率准则公式及冒泡法排序 3.1.1 nba 效率准则公式 NBA 对于球员有一个综合判断指数:效率准则(也称之为单位效率准则),这个效率指数 的最基本思路是将一名球员球场表现的折算成为一个可以进行比较的数字,保障了不同位置 的球员都可以在一个通过换算后的同一起跑线上进行比较。 计算这个效率准则的公式为:[(得分+篮板+助攻+抢断+封盖)-(出手次数-命中次数)-(罚 球次数-罚球命中次数)-失误次数]/球员上场比赛的场次。这个依据的得出,可以综合判断球 员良性表现,并且参照球员的球场不良表现,接着根据球员出场的次数来得出单场平均的效 率表现。 -2-
中国科技论文在线 http://www.paper.edu.cn 就这个公式而言,是现在 NBA 官方数据中,最常见的一个综合数据指数,而事实上同 样存在不合理的基准,就是某种程度上把进攻指数凌驾在防守指数之上。假设有两名球员同 时计算 5 场比赛的效率指数: A 球员:150 分 50 篮板 25 助攻 5 抢断 5 封盖,出手次数 150 次命中 100 次,而罚球 60 次命中 50 次,失误 10 次的话,该球员场均 30 分 10 板 5 助攻 1 抢断 1 封盖 2 失误命中率 67%罚球率 83%。该球员的效率指数为:33 B 球员:60 分 75 板 15 助攻 15 抢断 20 封盖,出手次数 70 次命中 45 次,罚球 20 次命 中 15 次,失误同样 10 次的话,该球员场均 12 分 15 篮板 3 助攻 3 抢断 4 封盖 2 失误命中率 64%罚球率 75%。该球员的效率指数仅仅为:29 事实上,前者是标准的全能进攻型球员,而后者是标准的全能防守型球员,只不过因为 相对来说防守型数据抢断与封盖的获得远不如得分这般容易,所以显得这位场均得分 12 分 却在篮板 15 次抢断 3 次封盖 4 次的优秀球员显得远不如进攻性球员。 而这个数据尽管存在 一定的偏袒进攻性,却是现在官方使用的最常用的效率指数,也是相对来说比较客观的一项 比较基准。所以本文以该公式作为对球员评价的重要工具。 3.1.2 冒泡法 冒泡法的目的是按要求从大到小或从小到大排序。他的基本思想是对尚未排序的各元素 从头到尾依次依次比较相邻的两个元素是否逆序(与欲排顺序相反),若逆序就交换这两元 素,经过第一轮比较排序后便可把最大(或最小)的元素排好,然后再用同样的方法把剩下 的元素逐个进行比较,就得到了你所要的顺序。可以看出如果有 N 个元素,那么一共要进 行 n-1 轮比较,第 I 轮要进行 j=n-i 次比较。(如:有 5 个元素,则要进行 5-1 轮比较。第 3 轮则要进行 5-3 次比较) 3.2 最优分割法聚类步骤 设有序样品 x(1),x(2),…,x(n)。他们可以是从小到大排列,也可以是按时间的先后排列。 1)定义类的直径 设 某 类 G 中 包 含 的 样 品 有 就 iiG ,{ n )( 该类的均值向量为该类的均值向量为 维向量 , 记 为 ,..., )}( m 为 X X X X > { )2( + = i ) , )1( j ( i )( j j ,...,1 }. 1 ∑ i =+− t 表示这一类的直径,常用的直径有: j j ),( X 1 t )( i = X G 用 iD iD j ),( = j ∑ t = i ( X t )( − X G () ′ X t )( − X ) G (2-1) 当 m=1 时,也可以定义直径为 iD j ),( = j ∑ t = i X t )( − ~ X G ,其中 GX~ 是这一类数据的中位数。 2)定义分类的损失函数 用 b(n,k)表示将 n 个有序的样品分为 k 类的某种分法: -3-
中国科技论文在线 http://www.paper.edu.cn G = 1 G = 2 .......... G = k i i i },1 ,...,1 ,{ − + 11 2 i i i ,{ ,...,1 },1 + − 2 2 3 .......... ..... .......... i n i ,{ }, ,...,1 + − k k i k 1 ... <<<<= 其中分点为 定义上述分类法的损失函数为 i 3 i 2 i 1 i k =< n i k + 1 − (1 即 i k + 1 += n )1 . knbL ,([ )] = k ∑ t 1 = tiiD ,( + − 1 )1 (2-2) 当 n,k 固定时, knb ),( )] knbL ,([ ,使分类损失函数 L 达最小。记 越小,即表示各类的离差平方和越小,分类越合理,因此 是使(2-2)式达到极小的分类 ),( knP )] knbL ,([ 的递推公式 要寻找一种分法 法。 3) 费希尔算法最核心的部分是利用以下两个递推公式: njD ,( )]1 nPL [ )]2,( knPL [ ,( )1 +− k jD ,1({min nj 2 ≤≤ jPL ( [{min k nj ≤≤ )] ,1 + − − = = )}, njD ,( (2-3) ). 4)最优解得求法 若分类数 k 是已知的,求分类法 b(n,k),使它在损失函数意义下达到最小,其求法如下: 首先,找出分点 kj ,使递推公式(2-3)达到最小,即 )]1 + njD ), knPL ,( [ jPL ( [ )] ,1 − − k ( k k − )]1 = jPL ( [ k 1 − − ,1 k − )]2 + 类似的方法依次可得到所有类 k jD ( − kGGG , 1 j , k 1 − ,... 2 )1 ,得到 ,这就是 = n j }. ,...1 + k k jPL ( [ , k 1 − j }.1 ,...1 − k = G k j ,{ 于是得第 k 类 k 然后找 1−kj ,使它满足 + { j k 1 − 1 − = j k G k , 第 k-1 类 1 − 我们欲求的最优解。 4 实际问题应用 522 193 109 86 88 48;1181 359 229 105 24 1037 416 4.1 求球员综合值(效率值)并排序 P=[552 144 258 57 7 262 196 140 69;436 285 137 48 54 354 145 67 55 48 60;208 94 78 24 783 316 172 149 125 80;2 1 172 70 20 19 48 56;894 157 238 46 8 3 101 39 16 14 16 1 0 1 22;91 1 16 5 5 0 343 39 26 31 6 0 9;638 0 0 418 240 193 157 68 69;214 162 77 29 8 38 28;545 154 175 42 15 485 188 156 125 69 35;1044 720 123 68 11 799 424 258 196 123 82;610 512 229 117 88 59 63;1514 761 137 30 150 1032 566 440 381 234 77]; 27 35 6 0 3;106 25 71;12 250 42 34 19 113 42 19 7 11 13 5 6 9 2 78 97 21 9 113 71 40 8 9;16 33 0 0 0 3 2 1 0 -4-
中国科技论文在线 http://www.paper.edu.cn 矩阵 P 为由 1-1 得到的球员数据样本,依据效率准则公式:[(得分+篮板+助攻+抢断+封 盖)-(出手次数-命中次数)-(罚球次数-罚球命中次数)-失误次数]/球员上场比赛的场次分别计 算综合值(效率值)并用冒泡法进行排序最终得到向量 X。(本部分 matlab 代码及注解见附 录 A) X=[0.88889 1 11.522 15.257 9.1 9.8214 23.805] 17.146 4.3182 4.5714 4.6197 4.7778 7.4762 15.522 11.517 4.2 计算直径、最小损失函数并确定分类数 4.2.1 计算直径 计算直径 j )} ,结果见表 3-1,因每个样品只有一个指标,由 2-1 式的定义,故有 iD ,({ j ∑ t i = = ( X iD j ),( 2 0 − X G 2 ) . t )( 表 2 直径 D(i,j) 3 4 5 6 7 8 9 10 11 12 13 14 15 1 0 0 0 0 0 0 0 0 0 i j 2 0.0061728 3 4 5 6 7 8 9 10 11 12 13 14 15 16 7.5942 5.5052 12.291 7.9432 0.032067 15.256 9.2563 0.052463 0.0011659 17.659 10.315 0.10905 0.023298 0.012491 32.162 21.228 6.8575 55.367 39.678 19.842 79.656 58.991 33.631 115.85 88.956 56.687 145.52 112.97 74.659 175.44 137.27 93.021 241.39 194.69 141.21 301.82 246.89 184.64 379.38 315.03 242.75 595.02 514.33 424.31 5.9871 17.17 28.654 48.312 63.091 78.151 120.68 158.52 209.93 378.77 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5.1553 3.6407 14.214 9.5333 1.3184 23.075 15.015 2.8858 0.26023 38.899 26.102 8.4242 3.0782 1.4369 50.234 33.519 11.764 4.4976 1.9216 1.29E-05 61.807 41.264 15.632 6.4239 2.8101 0.18199 0.13516 98.19 70.619 37.154 22.977 15.814 9.7074 130.07 95.897 55.345 36.545 25.964 16.61 174.37 132.36 83.363 58.726 43.577 29.774 329.41 271.85 205.5 167.54 140.86 114.99 8.1876 5.1696 13.186 7.5067 0.035006 23.329 13.697 2.0928 98.656 75.838 48.076 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.3197 0 38.532 22.17 ,即分别计算将 l 个样品分成 4.4.2 计算最小损失函数 15 l k 2,16 3 )]}, klPL ,( [{ ≤≤ 计算最小分类损失函数 ≤≤ 两类、三类…时,最优分割的损失函数,所有结果列于表 3 -5-
中国科技论文在线 http://www.paper.edu.cn i j 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 3 0.006 1728 0.038 24 0.058 636 0.115 22 6.863 7 18.97 7 20.54 4 26.08 3 29.42 2 33.29 1 54.81 2 68.70 7 90.88 8 194.6 5 0 0.006 1728 0.007 3388 0.029 471 0.115 22 1.433 6 3.001 8.539 4 11.36 1 13.28 8 29.84 33.32 6 35.38 3 81.36 6 表 3 最小分类损失函数 L[P(l,k)] 4 0 0 0.001 1659 0.007 3388 0.029 471 0.115 22 0.375 45 2.870 5 3.001 3.183 12.70 8 13.32 3 15.38 35.38 3 5 0 0 0 0.001 1659 0.007 3388 0.029 471 0.115 22 0.375 45 0.375 46 0.557 44 3.183 3.218 5.275 8 15.38 6 0 0 0 0 0.001 1659 0.007 3388 0.029 471 0.115 22 0.115 23 0.297 21 0.557 44 0.592 45 2.650 2 5.275 8 7 0 0 0 0 0 0.001 1659 0.007 3388 0.029 471 0.029 484 0.115 23 0.297 21 0.332 22 0.592 45 2.650 2 8 0 0 0 0 0 0 0.001 1659 0.007 3388 0.007 3517 0.029 484 0.115 23 0.150 24 0.332 22 0.592 45 9 0 0 0 0 0 0 0 0.001 1659 0.001 1788 0.007 3517 0.029 484 0.064 49 0.150 24 0.332 22 10 11 12 13 14 15 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0.029 484 0.064 49 0.150 24 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0.029 484 0.064 49 0 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0.029 484 0 0 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0.007 3517 0 0 0 0 0 0 0 0 0 0 0 0 1.29E -05 0.001 1788 0 0 0 0 0 0 0 0 0 0 0 0 0 1.29E -05 4.2.3 确定分类数 knPL [ ,( 作出 )] 随 k 变化的趋势图,从该输出可以看到曲线在 k=3,4 处拐弯所以分为 三类或四类为好,这里我们分为四类。 -6-
中国科技论文在线 http://www.paper.edu.cn 图 1 随 k 变化的趋势图 4.2 求最优分类 查的 结合矩阵 J (见下表 3-4)和最小分类损失函数 PL [ 求最优分类,要分四类,即 k=4, ,对应 J 的值为 16,这说明最优解得分类的损失函数是 35.383, G = 。再对其余的 15 个样品考虑分为三类的最优分法 383.35 )]4,16( klPL ,( [ )] = } x { 16 4 2 9 1 3 , , 8 , } = , x 11 x 12 .35 383 G = )]3,15( PL )]2,12( [ , , 分类时首先分出了第四类 PL G = [ { ,对应 J 中的值为 13,所以可得 291.33 = 12 个 样 品 分 为 两 类 的 最 优 分 法 , G = xxxx xx ,{ , , } 。 1 4 5 6 2 xxxxxx ,{ , , }, 1 6 xxxx ,{ , 7 10 从 而 求 得 最 优 分 类 P(16 , 4) : x , 14 结合表 1-1 得如下结论: 超级明星球员:姚明 明星球员:阿泰斯特、麦迪、斯科拉 普通球员:韦弗、布鲁克斯、洛瑞、巴蒂尔、兰德里、阿尔斯通 低效率球员:库克、多西、海德、巴里、穆托姆博、海耶斯 (附录 C 为最优分类过程的 matlab 实现) { 16x , } x 15 , 3 , } , 4 5 2 3 { x 13 , , } x 14 x 15 x ,最后对剩下的 13 对 应 J 的 值 为 7 , 得 到 xxxx ,{ , 7 10 , 9 8 , x 11 , x 12 } , -7-
中国科技论文在线 http://www.paper.edu.cn i j 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 3 3 3 3 3 7 7 7 7 7 7 8 8 10 3 0 4 4 4 7 7 7 7 8 8 8 13 13 13 4 0 0 4 6 7 8 8 9 10 10 10 13 13 16 5 0 0 0 6 7 8 9 10 10 10 13 13 13 16 6 0 0 0 0 7 8 9 10 10 10 13 13 13 16 5 总结 表 4 矩阵 J 7 8 0 0 0 0 0 8 9 10 10 12 13 13 15 16 0 0 0 0 0 0 9 10 10 12 13 13 15 16 9 0 0 0 0 0 0 0 10 10 12 13 13 15 16 10 0 0 0 0 0 0 0 0 10 12 13 14 15 16 11 0 0 0 0 0 0 0 0 0 12 13 14 15 16 12 0 0 0 0 0 0 0 0 0 0 13 14 15 16 13 0 0 0 0 0 0 0 0 0 0 0 14 15 16 14 0 0 0 0 0 0 0 0 0 0 0 0 15 16 15 0 0 0 0 0 0 0 0 0 0 0 0 0 16 从结果看通过最优分割法得到的分类与实际相吻合,姚明是上赛季火箭队唯一入选全明 星的球员,分在超级明星一组实至名归,而原来的超级明星麦迪由于伤病的原因没有发挥出 全部的实力,但比一般的球员还是要好一些,阿泰斯特由于是初到火箭不久,与球队有磨合 问题所以发挥一般,斯科拉有稳定的得分,他们同分在明星一组也是合理的。普通球员中布 鲁克斯、洛瑞、兰德里均为年轻球员,都有上升的空间,所以他们还是值得培养的,巴蒂尔、 阿尔斯通是 nba 的“老兵”他们也同样是合格的角色球员。再看看低效率球员这一组,除去海 耶斯外的 5 人都在今夏被火箭队的总经理穆雷给交易或退役,他们都是在赛场上无法获得稳 定的出场时间的板凳球员。在这里唯一值得商榷的是巴蒂尔和海耶斯两人,他们都是防守远 强于进攻的球员,正如在前文 2.1.1 中所说,这个效率准则公式更加偏袒进攻球员。 参考文献 [1] 高慧璇.多元统计分析.北京:北京大学出版社,2008 [2] 陆璇,叶俊.实用多元统计分析.北京:清华大学出版社, 2008 [3] 朱永生.实验数据多元统计分析.北京:科学出版社, 2009 Competes the efficiency order sample cluster about the basketball player Cheng Meng, Lan Jian, Huang Qiuqiao, Zhou Mi School of technology, Liaoning technical university, Liaoning Fuxin (123000) Abstract This article gathered a nba team's all player season each technical specification (for example score, backboard, to snatch breaks, sealing, shooting number, penalty kick number and so on), and (the most superior stepwise method) and nba the efficiency criterion divided into using the ordered sample cluster law these players the superstar player, the star player, the ordinary player, the low efficiency player and so on four kinds, the classified result tallies the player actual performance, analyzed the obtained result -8-
分享到:
收藏