长篇引言:什么是“预期进球数”,什么是“真实射门得分率”
在我之前的文章中,几乎每一篇与数据有关的,都会提到一个数据——“真实射门得分率”,评论区也有朋友问我这个数据究竟是怎么回事,我也有心做个科普。这其实涉及到一个问题:
如何量化球员射门能力?一直以来,媒体对该问题始终采取一种极为简单粗暴的方式:看进球数。进球数数据虽然简单,但存在档次差别之时仍旧很有意义。然而问题在于:我们无法从进球数当中,看出每次射门的难度如何,因而也就不清楚球员每次射门“克服难度”的能力。举例来说,下面两个进球,显然难度上大有差别,但在传统标准中,它们的价值是一样的,都是1个进球:
当然,媒体会通过诸如“十佳球”之类的节目,给予谢尔维的世界波更高赞许。但每一脚射门的难度可能都存在差异,我们简单评选出10个,甚至100个“绝妙好球”,对于衡量大样本下多名球员的射门表现,远远不够。而且我们不清楚一名球员打进一脚世界波之余,又轰出了多少打空了的射门,或者附带了多少“保姆球”。因此,最好的方法,其实是量化每一脚射门的难度,从而给予射门质量本身更公正的评价。好消息是,我们拥有”预期进球“(Expected Goal,一般缩写为”XG“)这个数据。
事实上,这早就不是什么新鲜数据了,微博上很多博主甚至会在赛后第一时间更新每场比赛两队的预期进球数,当然他们大多会将之翻译成“进球预期值”(不过我自己看不出两种译法之间有什么本质差别)。其实这个数据存在很多版本,不同数据公司的算法存在细微差别,而且绝大多数具体算法是不公布的。微博上大多用的是Between the post网站的算法,其兄弟网站11tegen11则给出了一个大致的方向:它参考了射门位置(包括距离和角度)、射门前的传球情况(是否为传中、经过了多少脚传球、是否是断球后立即发起的进攻)、持球操作情况(是否经历了过人、是否过掉了守门员、是否属于OPTA界定的“绝佳机会”)等等因素,结合最近几十万次射门,用大数据计算出“在射门发生之前,这次射门的进球概率”——注意,是射门发生之前,换言之,它量化的是“射门难度”。比如刚才给出的两个进球:凯恩的门前补射,预期进球是0.77,而谢尔维的世界波,预期进球只有0.07。
当然,作为一个“射门前”的数据,预期进球数没法考虑一些意外情况,比如下面这球,由于防守方封堵特别严密,预期进球数只有0.01,但皮球反弹之后的诡异路线,竟然在门将毫无反应的情况下,飞向横梁:
话说到这里,我们其实根本不用去纠结“没有公开的算法是否可信”这个问题,因为有可能即便数据公司想告诉你具体公式,他们也做不到——这种大数据算法有可能根本就没法形成一个具体公式。当这个数据产生之后,我们所要做的,是思考它究竟怎么用。其实它“量化射门难度”的根本性质,已经给我们指出了使用方向:有了难度量化,那么就一定有“克服难度能力”的量化,我们只需要在样本足够大的情况下,用每次射门的实际进球数同预期进球数做差,就可以得出一个球员“对射门难度的修正能力”。
因此,我自己得出了一个“真实射门得分率”的概念——之所以起这么个名字,纯粹是因为我不知道如何给它命名而已。其公式是:“真实射门得分率=(实际进球数-预期进球数)/射门数*100%”。由于每次射门的实际进球数只有0和1两种可能性,而预期进球数,即便我们取小数点后两位,也有99种可能,因此这个算法中最大的变量在于预期进球数。显然,少量高难度射门造成的影响不会太大,然而一旦打进就是巨大加成;反过来说,总是进一些保姆球或者点球,那么最终真实射门得分率也不会太高。
当然,除了数量极少可以忽略的乌龙球之外,射门其实是足球场上取得进球的唯一方式;而足球又没有24秒规则,比赛双方的进攻机会很可能是不对等的,因此,开发出更多射门也很重要。对射手来说,产量与质量是最好能够兼顾的两个维度。所以,我们在进行量化时,也要注意射门次数的叠加——注意,对一个优秀射手来说,多射门是好的,尽管我们没法量化“产量”与“质量”之间的关系。此外,还有一个重要因素是“出场时间”。
接下来,我们用3张散点图,简单明了的看看本赛季英超(16轮)、西甲(15轮)与意甲(15轮),谁最能射。样本选择wyscout给出的射门榜前30。
第一张图,告诉你英超谁最能射
(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)
英超其实大家普遍开火权都不是太多,最多的阿圭罗,每90分钟射门不过4.14次。整个联赛中,最能兼顾射门产量与质量的,还是瓦尔迪。严格来说此人射门并不十分频繁,只不过真实射门得分率达到了夸张的16.54%(上赛季的梅西不到8%),当然这个数据肯定会回调,但即便大幅下降,也仍旧是一个极高的数字。加上其目前总出场时间长达1547分钟,最终累积出高达17个进球,也就不难理解了。
值得注意的是纵轴最顶端的阿里和谢尔维,他们能出现在这个榜单中,很大程度上是小样本、低门槛的情况下,导致的数据“失真”。谢尔维打到现在射门只有19次,阿里更少,只有12次。极少数射门轰进一两个难度较大的,对真实射门得分率的加成实在太过恐怖。比如下面两球,阿里和谢尔维的射门,预期进球分别只有0.15和0.07:
当然,这样的进球,尤其是谢尔维的进球,很难长期得到延续。当然还有一种可能是,谢尔维接下来很少射门,那么他的真实射门得分率就会一直停留在一个极高的水准上;但是,30轮候我们再去看,很可能二人会因为进球数太少,直接被排除在考量范畴之外。
此外这里要提醒大家两点:其一,最终决定进球数的,不仅仅是射门准星与开火权,第三个变量“出场时间”也很重要;其二,我们这个图针对的仅仅是射门量化,诸如持球推进、过人、传球等等进攻环节,并不在考虑范围之内。这两点其实存在一个共同的典型案例,就是孙兴慜。韩国天王每90分钟射门次数与真实射门得分率其实比之上赛季都有所下降,而射门难度则基本持平。真正导致这赛季输出增加的,是他作为绝对主力,本赛季出场时间暴涨;同时,他所扛起的大量持球推进重任,则又与本图无关。
第二张图,告诉你西甲谁最能射
(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)
西甲方面,梅西毫无疑问一枝独秀,产量最高之余,连质量都是榜单中的第2名。这其中由以其18.00%的真实射门得分率最为恐怖——刚才我们提到谢尔维凭借少数射门打出超高的真实射门得分率,也不过19.16%而已,要知道,梅西的射门数可是2倍于谢尔维的。
事实上,梅西最终以一球优势力压本泽马暂居西甲射手榜首位,凭借的正是真实射门得分率上的巨大优势——二人每90分钟射门数相差无几且分居西甲前2位,出场时间上本泽马则大幅领先,梅西纯粹是高难度射门的把握度更高。
其实梅西此前尽管射门准星也不错,但也不至于高到这个程度。这两年之所以突然之间扶摇直上,原因我在《数据告诉你,梅西在转型后的升华》一文中已经说过,梅西这两年精进了禁区前的射门和任意球,尤其是后者,每打进一个都是巨大加成。比如下面这两球,预期进球数分别只有0.07和0.05,显然对梅西的真实射门得分率加成极大:
另外值得关注的是苏亚雷斯与本泽马。两人单位时间内的开火频率与射门准星相差不多,导致二人进球数差3个的主要原因在于,本泽马出场时间比苏亚雷斯多出300分钟。但如果我们对比二人进5年来的数据,就会发现他俩其实是一个上行,一个下行。我们把二人近4年来的数据做成散点图,分别做一分析:
(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)
显然,总体而言苏亚雷斯确实是在衰退的,15-16赛季是其兼顾“质”、“量”的典范,那个赛季MSN组合也算得上风光无限。而随着内马尔出走,苏亚雷斯的所能够获得的射门机会直线下降,其自身的射门准星,即便不看数据,这两年的回调也是看得见的。事实上相对而言,他在本赛季还算是状态有所回升,这也是场面上看得见的。
(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)
本泽马的情况则不同,此人同样在15-16赛季达到兼顾质与量的巅峰,然而随即便迅速滑落,尤其是17-18赛季,他飘在外面搞什么“策应”宁死不进禁区的做法,其实是连球队带自己一块坑,要知道当时贝尔已经失去主力位置,C罗一个人在禁区内孤立无援,本泽马再“拉空禁区”已经毫无意义。加之本身就不擅远射,最终射门次数与射门准星创下“双低”。然而本泽马的聪明之处就在于十分擅长做自我总结,自18-19赛季起,他仿佛一夜之间意识到“我是中锋”,结合C罗离队的契机打开封印,一个劲往禁区里钻,禁区内触球频率创下新高的同时,也把射门产量与质量通通打了上去。
此外还有一个人必须要提一句的人——格里兹曼。格里兹曼此前几个赛季一直是真实射门得分率方面的超级大神,放眼世界足坛,恐怕没人比格里兹曼更理解“中产高效”这句话的含义。此人几乎不会尝试任何难度极大的射门,但中等难度的射门一旦放在眼前,基本上手到擒来,鸭子煮到三成熟就觉不会再让它飞走。然而本赛季环境突变,格里兹曼动辄在左边路靠着不很擅长的爆发力讨生活,在要求他用左脚维持超高的真实射门得分率已经有些强人所难。饶是如此,此人打出5.07%的真实射门得分率,倘若能维持到赛季结束,也依然是一个不错的数据了。
第三张图,告诉你意甲谁最能射
(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)
意甲方面,目前自能兼顾产量与质量的无疑是射手榜上的头名因莫比莱,他在纵轴上看上去不那么领先,纯粹是因为特奥和若奥·佩德罗在小样本下打出了过高的准星而已。而且,因莫比莱和瓦尔迪相似的一点是是出场时间不少,开火权、准星与时间3个维度共同作用之下,打出超高的进球数也就自然不在话下了。此人远射不多,射门分布多在禁区之内,原本这对于真实射门得分率的累积并不十分有利,毕竟所有的射门距离球门都很近,意味着预期进球数会提升。但因莫比莱本赛季有一项绝活是:善于在封堵之下射门,这对于真实射门得分率的正面加成不容忽视。比如下面这球,预期进球数只有0.11:
另一个焦点人物自然是C罗。我知道他目前的境况不是很好,从图上看,这赛季他在联赛中的表现也确实有些“高产低效”,真实射门得分率甚至已经跌入负值。这里必须要说的是,尽管偶尔来上一两脚远射,对真实射门得分率不会产生太大影响,但如果如此尝试多了,累计起来就会成为相当大的负面因素。本赛季C罗的射门选择确实显得有些不太合理,远射实在是太多了些。这里我们给出C罗本赛季到目前为止,联赛中的射门分布图:
实话实说,这里面的远射实在太多了些,有的甚至分布在边路,这些选择确实是有待商榷的。像下面这两脚射门,预期进球数分别只有0.02甚至0.00(对你没看错)。的确,一旦打进的话加成极大;但偶尔为之没问题,尝试的太多就是另一回事了:
其实C罗蛮可以主动做一些调整,比如多去门前抢点——千万不要小看了门前抢点对真实射门得分率的积累作用,要知道,决定每次射门预期进球数的不仅仅是距离球门的距离,角度以及接到传球的方式甚至射门部位,都会产生极大影响。下面这球虽然距离球门很近,但防守球员的对抗干扰结合角度封堵,加之又是边路传中和头球(通常这两个元素会被认为不很利于进球),最终与其进球数只有0.09。C罗打进了,那就是巨大加成:
当然,我不是说一名球员的存在应该为某一项高阶数据服务,而是说:这脚射门既然被一个参考过去几十万次射门的大数据算法界定为进球概率只有区区9%,那就说明这种射门的难度其实非常大。而C罗恰恰又非常擅长此道。那么,他更为合理的做法显然是充分发挥长处,多去门前抢点。
不过,需要注意的是,C罗最近几年的生涯呈现出极为诡异的走势,似乎年过而立之后,他开始有意调整自己在一个赛季中的体能分配——联赛开局阶段,C罗的射门准星基本没好过,后面会有所回调;更重要的是,他在欧冠当中的表现,要比联赛好得多。我们把C罗最近5个赛季以来联赛和欧冠上的真实射门得分率,做成柱状图进行对比:
说实话,C罗欧冠和联赛上的差别真不是一星半点的大。这里我不想用什么“关键时刻大心脏”之类毫无十几根据的词汇去描述,因为一来联赛同样关键,二来我们没有球员身体激素分泌数据,根本没有研究球员心态变化的一手资料,三来如果将所谓的关键时刻全部筛选出来,样本会小到失去量化意义。此时去谈心态,连隔岸观火多算不上。我只能根据这个履历去猜测:或许C罗本赛季依旧能够打出欧冠与联赛上的巨大反差。
事实上我们不管如何分析,都一定要注意一个客观事实:一个将所有球员都放在一起进行比较的数据模型,是不会考虑球员年龄的。C罗马上就要35岁了,倘若我们把这个年龄段的球员全部集中起来考核,大概率是我们连一张丰满的图都做不出来,因为多数人在这个时候,想进入榜单都是一件难事。其实我们每个人都知道,自己总有一天会老;会从一个热血青年,变成看着下一代茁壮成长,然后擦擦汗闷头继续工作,为老婆孩子多挣上百十块钱,将年轻时的诸多梦想暂时压抑起来——我们会老,职业生涯更短的运动员,为何不会?
所以,我一方面相信C罗一定能适当的把射门准星调回来,另一方面也清楚的知道,有些事其实可以用来研究,可以用来珍惜,但不太适合用来“黑”。我的偶像劳尔,在35岁的时候,已经去卡塔尔踢球了。
(花花午夜嚎叫)
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved