Nba中的数学模型 邢正
1.背景知识 2
在美国四大职业体育联盟中,nba(美国男子篮球职业联赛)虽然在美国国内影响力位居四大联盟垫底,但它是大数据的鼻祖,也是大数据的最佳践行者。20世纪80年代以来,nba所有球员的得分、篮板、助攻、盖帽、抢断、失误、犯规,以及投篮、三分和罚球命中率等一系列场上数据均被统计在列。此外,合理冲撞区的触球次数、每回合传球次数、潜在助攻、造犯规次数等“高级数据”同样成为分析球员个人能力与团队意识的关键数据
Daryl Morey 达雷尔·莫雷,先后毕业于麻省理工大学计算机与工商管理专业,在nba就职前没有接触过正规篮球。 现任休斯顿火箭队总经理 数学与篮球 Daryl Morey 达雷尔·莫雷,先后毕业于麻省理工大学计算机与工商管理专业,在nba就职前没有接触过正规篮球。 现任休斯顿火箭队总经理 长于信息收集分析和风险控制,其“魔球理论”被奉为经典 4
Jonas Kazlauskas 尤纳斯·卡兹劳斯卡斯,毕业于维尔纽斯大学数学系 前任中国男篮主教练,帮助中国队在北京奥运会中进入八强 数学与篮球 Jonas Kazlauskas 尤纳斯·卡兹劳斯卡斯,毕业于维尔纽斯大学数学系 前任中国男篮主教练,帮助中国队在北京奥运会中进入八强 5
建模思想及相关数据分析① ①.数据及进攻端模型来自虎扑网,参考网友“古巢2飞曹”《数学建模为你解答--NBA比赛中决定胜负的因素》一文 6
接下来我们将按照建立数学模型的方法和步骤,将nba球员的能力进行量化,并简单研究数据与能力值的关系。 数学模型(Mathematical Model)是数学理论与实际问题相结合的一门科学。它将现实问题归结为相应的数学问题,并在此基础上利用数学的概念、方法和理论进行深入的分析和研究,从而从定性或定量的角度来刻画实际问题,并为解决现实问题提供精确的数据或可靠的指导。 接下来我们将按照建立数学模型的方法和步骤,将nba球员的能力进行量化,并简单研究数据与能力值的关系。 7
为研究nba中一场比赛的胜负与哪些因素有关,我们选取2010年20场nba季后赛的数据作为样本(见下表),其中包括主队和客队的净胜分、命中率差、三分球命中个数差、罚球命中个数差、篮板差、助攻差、失误差(均为主队数据-客队数据),建立一个数学模型,衡量出净胜分与其他因素的关系,从而得出比赛的胜负与哪些因素相关。 8
9
假设:y~净胜分x1~命中率差x2~三分球命中个数差x3~罚球命中个数差x4~篮板差x5~助攻差x6~失误差 将上表的数据排成x,y,用MATLAB中的stepwise(x,y)命令,得到stepwise Table和stepwise Plot窗口,并移去回归系数置信区间(由样本统计量所构造的总体参数的估计区间)包含零点的x2,x3,x5(包含零点则估计的系数不显著)得到下图: 10
观察上表可以看出,常数项的回归系数置信区间含零点,说明常数项对因变量的影响不显著,可以从原模型去掉。 利用MATLAB统计工具箱求解,得到的回归系数估计值及其置信区间 观察上表可以看出,常数项的回归系数置信区间含零点,说明常数项对因变量的影响不显著,可以从原模型去掉。 11
可以看出所有的回归系数置信区间都不包含零点,即y=1.0863x1+0.7206x2+0.3335x3+0.6022x4-1.0735x6 模型可改进为y=b1x1+b2x2+b3x3+b4x4+b6x6 再次利用MATLAB统计工具箱求解,得到的回归系数估计值及其置信区间 可以看出所有的回归系数置信区间都不包含零点,即y=1.0863x1+0.7206x2+0.3335x3+0.6022x4-1.0735x6 12
接下来我们将2010年NBA总决赛第一场的数据y=13,x1=5.4,x2=3,x3=-6,x4=11,x6=-1代入上面的模型求解得: y=13.7245,与y的实际值13相差无几。 13
同理,我们可以运用这种方法分析其他数据(特别是抢断、盖帽等防守端数据,以及犯规等恶性数据)与比赛胜负的定量关系。将一个球员赛季场均得分,篮板,助攻,抢断,盖帽,失误,犯规等数据按权重(如上面的b4,b6)进行加和,并将得到的数据与投篮,三分和罚球命中率按权重(如上面的b1,b2,b3)得到的和进行乘积运算,从而得到该球员的能力值。我们可以得出结论:球员的能力值越高,该球员对球队胜利的贡献值就越大,球队应以更高的价格签约能力值更高的球员。 14
3.此类模拟的缺陷及相关科学性的质疑 15
这些规则和设置存在着致命缺陷——数据不能完全模拟球员的真实表现! Isaiah Canaan由于效力于摆烂期间的弱旅费城76人队,获得了大量的球权和出手权,数据也迎来了“井喷式”增长,然而其实力显然与数据不符。 16
Klay Thompson,该球员射术精湛,防守习惯良好,经常负责盯防对方主攻点,但由于抢断数据偏低,其数据始终不能达到实际水平。 抢断数据同样不能完全衡量球员的防守能力,很多球员有冒险抢断的“掏球”习惯,这样的球员虽然抢断数据不错,但一旦抢断失败则有防守失位的风险。 Klay Thompson,该球员射术精湛,防守习惯良好,经常负责盯防对方主攻点,但由于抢断数据偏低,其数据始终不能达到实际水平。 17
数据好的球员综合能力不一定强,这是此类模拟最大的软肋! 为解决这一问题,我们不妨引入更高级的数据。除前文提到的触球次数、每回合传球次数、潜在助攻、造犯规次数等以个人表现为衡量标准的数据外,还有胜负贡献值(在该球员出场时间内球队领先或落后对方的分数)等以团队表现为衡量标准的数据。 18
这便是利用数据衡量球员能力与历史地位的两个极端: 1.前者肯定个人数据分析在衡量球员能力等方面做出的贡献,将数据分析未能解决的部分出现的原因归结于发展程度的不足,进而引入更复杂的数据和相关规则。 19
前者的问题在哪里? 从自然科学发展史的角度来看,一门科学总是试图总结出自然界的规律,它应该将自然界所发生的事物简化为一些比较明了的、可以解释这些事物的规则。假如一门自然科学在其发展过程中不得不使用越来越多的规则来解释它所观察到的现象的话(比如地心说后来不断引入更多的偏轮来解释行星轨道的差异),那么这往往说明这门科学正在走入一条错误的道路,此类模拟虽然不是自然科学,但其发展轨迹与伪科学是相似的。 20
后者的问题在哪里? 后者(唯战绩论)则有大量明显的反例(例如我国球员孙悦曾获得nba总冠军,而巨星Allen Iverson没有总冠军)。MVP(最有价值球员)作为个人荣誉的顶峰,总冠军作为团队能力的顶峰,二者之一都不能完整地衡量球员的能力,而二者的融合却没有确定的权重(以任何权重将球员所获荣誉进行量化均有大量反例),因此这也成为了nba数据分析学发展一大障碍。 21
即便是根据以往比赛的结果 建立数学模型,并对此后比赛 结果进行预测,同样会有大量 的不确定性。
有人曾在2012年提出,凡是曾经在季后赛进入第四节的时候领先超过18分,但最终输掉比赛的球队,都会进入总决赛。尽管大量数据表明,往届的结果符合该模型,但输掉比赛反而因祸得福,这显然是悖理的!事实上,该预测结束后不久,首战第四节崩盘的灰熊队以3:4被快船队淘汰。
近期曾有媒体推测,cba历史上总决赛第二场获胜一方,最终夺得总冠军的概率为94
凡此种种,不一而足,人们开始质疑此类数学模型的科学性,甚至有人将竞技体育的数据分析纳入伪科学范畴! 2010年,德国多特蒙德大学物理系教授托兰利用自己开发的一个数学公式预测出今年南非世界杯的冠军队伍是德国,然而真正的冠军却是西班牙队(下图为托兰的公式)。
不仅nba的数据分析存在此类问题,单纯利用统计学知识进行数据分析不能解决的问题还有很多,例如武书连的“大学排名”。 26
再见