前利物浦研究总监伊恩-格雷厄姆博士于今年发表新书《如何赢得英超:足球数据革命的内幕故事》,这位毕业于剑桥的物理学博士在创立体育咨询公司Ludonautics前,曾在2012年至2023年间供职于红军,创立英超首个内部数据分析部门,见证了芬威体育集团治下利物浦从蛰伏到复兴的全过程。
书中除了讲述格雷厄姆个人在利物浦的成功经历,还介绍了足球数据科学的基本理念,并对一些公众喜闻乐见的焦点话题阐述了自己独特的见解,比如第12章《史上最佳之争》,针对梅西和C罗谁是“GOAT”给出了数据角度的解答。
今天我们就从这个浅显易懂又备受关注的话题入手,一窥数据分析的奥妙。
史上最佳?很遗憾,数据条件所限,我们无法使用如今的分析模型将贝利、马拉多纳等历史巨星与梅罗进行深度比较。实际上,即便是梅罗自己早期生涯的表现也未被全面覆盖——英国体育数据供应商Opta于2007年开始出售“事件数据(event data)”,彼时C罗已在曼联效力四个赛季,梅西也早已荣获金童奖。
可即便如此,我们也能轻易地发现,梅罗二人能维持长达近20年的巅峰竞技状态,前无古人。贝利时代的职业足球竞赛体系远不如近日发达,马拉多纳的旅欧生涯也只有11年。
把取样范围限定在顶级赛事(五大联赛、欧战和成年国家队正式比赛),截至2024年5月,C罗在81,594分钟里收获755球272助(每90分钟1.13个进球和助攻),梅西则是72,313分钟690球339助(每90分钟1.28个进球和助攻),场均制造超过一球。
当今还有一人勉强可以匹敌,那便是仍在征战顶级联赛的莱万多夫斯基,平均每90分钟可贡献1.09个进球和助攻,与C罗差距不大——56,458分钟造517球166助,且仍在继续增加。
其他人选呢?内马尔和姆巴佩效力于竞争程度较低的法甲,让他们的数据含金量打了折扣;路易斯-苏亚雷斯和伊布拉莫维奇很优秀,但在荷甲待了太久;大、小罗(罗纳尔多和罗纳尔迪尼奥)最令人遗憾的便是伤病和职业生涯长度。
是的,想要做GOAT,首先得“耐用”。C罗在顶级联赛平均每赛季出场接近3,900分钟,梅西也超过3,800分钟,最接近二人的莱万超过3,500分钟的出场数据也很可观(尤其考虑到德甲轮次更少)。
24岁的哈兰德是“后梅罗时代”足坛王者的有力竞争者,193球41助、平均每90分钟1.3个进球和助攻的数据足够惊人,但他只踢了五个赛季,想要在未来匹敌梅罗,首先得有持久力。
哈兰德会成为下个“纪录粉碎机”吗?
进球和射门提及梅罗,就不得不提到二人恐怖的得分能力。总进球数上C罗遥遥领先,但效率方面梅西每90分钟0.86球比C罗的0.83球更胜一筹。
除了征战顶级赛事时间更长外,C罗还是更好的点球手,点球转化率比梅西高出3.5%。由于点球主罚者经常不是点球制造者,且比起射术,点球有时考验的更是博弈能力,或许我们可以从去掉点球的维度再来观察二人的进球能力,那么梅西每90分钟0.74球的效率领先C罗(0.68球)的幅度更大。
数据分析当然不能止步于此。如同上文中“进球=出场时间×进球率”的拆解,起脚次数和射门准确率也是构成进球的要素。
C罗素以“无限开火权”闻名,场均近5脚射门也证实了这种印象,梅西的起脚次数也不低,场均接近4脚。
我们可以借助“预期进球”的概念来辅助判断起脚的时机选择,预期进球(Expected Goal, xG)通过使用历史海量射门统计数据来计算一次射门得分的可能性,从而衡量机会的质量。C罗的预期进球转化率(xG÷总射门数)为11%,低于梅西的14%,这意味着C罗对起脚合理性的把握逊于梅西,或许是因为他对石破天惊的远射更为执着。
这导致了C罗命中门框的准确率不足40%,同样低于梅西的46%。这方面还有更高级的工具,格雷厄姆喜欢使用自己开发的“击球后预期进球(Post-Strike xG)”,将射门弹道纳入考虑后更能衡量前锋把握机会和门将扑救的能力,梅西的xG转化率进一步提高,C罗则相反,更进一步佐证了二人射门精度的差别。
这同样符合印象流,梅西偏爱四两拨千斤的推射,C罗则崇尚“暴力美学”。他们都取得了想要的效果,梅西的实际进球转化率比xG转化率高出18百分点,C罗高出13个百分点,也非常优秀,同样的特征也体现在了任意球上。
当然,从“得分技能包”的多样性角度看,C罗显然是更为全面的那个,葡萄牙人约1/6的射门通过头球完成(梅西只有1/18),约1/5的射门使用逆足(梅西只有1/6)。
传球和创造力助攻方面,梅西的顶级赛事助攻数达到339个(每90分钟0.42助),总数高于C罗的272个(每90分钟0.3个),效率更是超出四成,传威胁球的能力上显然是阿根廷人更强。
得益于巴萨tiki-taka风格的加成,梅西每场比赛的传球次数比C罗高出一半,同时也是顶级赛事中传球次数最多的锋线球员。
从这些数据看,梅西显然是更棒的团队型球员,然而想要衡量球员行动对于球队的“价值”,我们需要更高阶的工具。
梅西2022世界杯传球统计
多年前格雷厄姆开发了一套“控球价值模型”,后来逐渐被业界接受并运用——球队在球场的不同位置、不同状态(普通、防守、定位球或反击)下控球对场上局势造成影响迥异,只有增加最终进球概率的控球才是有价值的,这便是“控球价值(Possession Value, PV)”。
计算PV需要运用统计学中的“马尔可夫链”,针对一次特定位置、特定状态下的控球,模型根据海量历史数据计算下一步发展的各种可能性,并一步步向下推导出最终进球或丢球的概率。
当一名球员通过传球或盘带将球权从一个位置转移到另一个位置,例如梅西在大禁区弧中央向点球点传了一脚直塞球,PV也会随之提高,这样便可以衡量一个球员除了进攻、助攻或过人成功之外对于球队的贡献。
实际上,该模型也可以衡量球员其他行为对于进球或失球的影响,包括但不限于射门、抢断、犯规等等。尽管有不少局限性,PV模型在球员评价方面表现不俗,利物浦18/19赛季欧冠决赛的首发阵容中有9名球员来自模型筛选,除了早已在队中的亨德森和青训球员阿诺德。
一则德布劳内提高PV的案例
回到梅罗之争,梅西通过传球增加的PV是世界顶级水平,于是当我们看到一位职业生涯末期 “大师化”的10号球员时,并不感到奇怪。
“双骄”都是顶级盘带高手,但众所周知,梅西的盘带能力是顶级中的顶级,不仅过人次数出众,通过盘带制造的PV增加值也是C罗的两倍之多,或许转型前的“小小罗”不会有这么大的劣势吧。
而尽管二人都是历史级得分手,高效的梅西在“控球价值模型”中评价更高,因为射门制造进球威胁的另一面,是终结球队对于皮球的掌控,增加了失球的风险,同时也夺走了其他球员制造PV的机会。射门不是越多越好,一个球队的“射门员”也不是越多越好。
可以说,从PV角度看,梅西几乎全方位胜出。
射门之外梅西更为全能
“散步”的梅西无论C罗还是梅西,都在队中享有“不用回防”的特权。很遗憾,由于球员轨迹数据(tracking data)的缺失,我们无法评价二者生涯大部分时期的跑动情况。
英超于2016年向俱乐部开放所有场次的球员轨迹数据,可以看到36岁的C罗在第二次效力曼联时跑动并不多,但他的冲刺速度依然可以和年轻球员相媲美,或许他早年的冲刺速度和距离都是现象级的,只是无法用数据证实。
一般来说,跑动少的锋线球员会像C罗这样用更多的冲刺来弥补回防的缺失,但梅西是出了名的“不爱跑”,不仅跑得不多,冲刺也少,因此招致不少批评,而这似乎并不是生涯末期的退化现象。
2014世界杯梅西跑动距离“独树一帜”
为什么一名如此“懒惰”的球员会取得这般伟大的成就?仅仅是因为历史级的有球技术吗?
2018年,供职于巴塞罗那的知名数据科学家哈维尔-费尔南德斯和红鸟资本联合所有者卢克-博恩发表了一篇题为《开放的空间:职业足球中衡量空间创造的统计技术》的论文,其中创造了“球场控制(Pitch Control)”的概念,用于探索球员对于空间的创造和利用,以及空间的价值。
大部分球员通过远离守方或向无人占据的区域积极跑动来创造空间,梅西却反其道而行之,他2/3的“有价值”的空间都是通过不动或散步而创造的,这其中有些是在高速移动中突然减速,有的仅仅是看似无意的闲庭信步…
瓜迪奥拉曾说过,梅西会在比赛的前几分钟观察对手防线上的空间和球员的防守倾向,然后才会开始行(san)动(bu),这可以解释他在比赛初段进球较少的现象——C罗8%的进球诞生于比赛前10分钟,梅西只有5%,直到去年的中国行梅西才打入首粒比赛前两分钟内的进球。
2022世界杯球员“散步”榜
结语谁是格雷厄姆眼中的GOAT?答案已然明了,但这并不是最重要的,如何通过数据视角观察和分析足球比赛才是他想要传达的思想内核。
实际上,书中格雷厄姆大力宣传数据分析的同时,也从未遗漏对于其局限性的辩证讨论,例如梅罗取得惊人数据的背景,梅西不曾如C罗般经历三大联赛磨练,尤其是对于粗鲁动作吹罚最为宽松的英超,但C罗同样受益于较“水”的国家队赛事——其中47球13助从列支敦士登、安道尔、塞浦路斯、卢森堡类似档次的对手身上取得,而梅西在南美遇到最“轻松”的比赛是坐镇海拔3,637米高原主场的玻利维亚。
格雷厄姆认为,无论足球数据分析技术发展到何种程度,亲眼观察永远是必不可少的,在其供职于利物浦时期,数据分析主要用于筛选转会目标和评价比赛内容,录像分析从未缺位。
无论如何,双骄为后人树立了难以逾越的标杆。如今足坛两极分化日渐明显,豪门统治力愈发强大,新一代超级巨星们拥有赶超前人的舒适环境,剩下的就全靠自己了!
只统计对呦西有利的?呦西拥有史上最多的球权数,球权数转化为进球的效率怎么不算?![笑着哭][笑着哭],点球不算?侏儒7场5爹怎么算?难道侏儒的点球杯可以取消?![笑着哭][笑着哭][笑着哭]
不比不知道,一比吓一跳。