从狂热球迷到剑桥物理博后,利物浦数据总监如何用数学模型带红军称霸欧冠?

2019 年 6 月 24 日 大数据文摘

大数据文摘出品

编译:张秋玥、杨威、夏雅薇、蒋宝尚


利物浦是英格兰足球历史上最成功的俱乐部之一,也是欧洲乃至世界最成功的足球俱乐部之一。


2018/19赛季,欧足联冠军联赛的决赛在马德里大都会球场进行,凭借萨拉赫和奥里吉的进球,利物浦2-0战胜热刺,历史上第六次捧起大耳朵杯,这也是红军时隔十四年在这项赛事中的王者归来。


事实上,早在比赛之前,利物浦已经能预见到自己本赛季的成绩。


通过对于整个赛季的数据进行分析,利物浦拥有七成概率夺冠,而热刺只有不到30%。


当然,本赛季利物浦俱乐部取得惊人成绩的背后,部分功劳归功于数据分析,或者说,力推这一数据分析招募方法的分析总监——伊恩·格雷厄姆那么, 这位剑桥物理学博后和他的团队,是如何用数学模型,带领利物浦走上数据分析之路的呢?


根据计算评估球员表现,效果惊人



让我们把时间拉回2015年11月。


正值红军主帅尤尔根.克洛普上任利物浦的第三周,当时球队的研究主任伊恩·格雷厄姆(Ian·Graham)来到他的办公室,这是他第一次见到克洛普。


格雷厄姆把他的文件放在他面前的桌子上,并开始谈论一场关键比赛:上个赛季克洛普在加盟利物浦之前,多特蒙德客场对阵美因茨(一个赛季排名11位的小俱乐部)的比赛。


他指出,多特蒙德有很多击败对手的机会,但是克洛普的球队最终以0:2失利。


格雷厄姆头头是道地分析起了比赛数据。克洛普一度被他的分析吸引:“啊,你也看过那场比赛。”


但实际上,格雷厄姆并没有看过那场比赛。但是在那个赛季早些时候,当利物浦决定谁应该取代即将被解雇的时任主帅罗杰斯时,格雷厄姆用他所建造的数学模型,对多特蒙德球员的数据进行了训练。


根据他的计算结果,用球员训练的表现来评估多特蒙德的每场比赛,差异有点惊人。


多特蒙德上赛季只取得了第七名,但该模型显示它应该排在第二位。


格雷厄姆的结论是,这只是因为运气不好。他恰巧正在执教最近历史上运气最不好的球队。


在足球比赛中,运气可以比其他类型运动更大程度地影响结果。进球相对较少,即使在英超,场均也少于三球。因此,对于最终结果来说,无论是一个进球还是错过球网几英寸的球,对于最终结果的影响要远远超过棒球或者NFL比赛。


一个月后,格雷厄姆再次对阵克洛普,对阵汉诺威。在多特蒙德的支持下,统计数据得分更加重要:18次射门7射中,55带球进入禁区,13次射门11中,成功横传3次……


实际上,格雷厄姆并没有看过多特蒙德在那个赛季的所有比赛,也不需要比赛录像,换句话说,球迷会去看比赛,而他只需要关心他的数据。


数据分析难点:足球的试探与评估并不好量化


5月7日欧洲冠军联赛半决赛。利物浦以4-0战胜巴塞罗那。


尽管《点球成金》的故事几乎人尽皆知,但在实际赛事中,足球似乎一直无法量化。


足球赛事中涉及太多的试探与评估,球员不断互相传球并寻找突破口。最后唯一的进球可能还是来自某位一直无所事事却不小心截到了对方球队错传的球的弱队边锋。


“我们这种赛事是无法被预测的”,山姆·阿勒代斯(Sam Allardyce)说。在埃弗顿去年将其解职前,他在过去的三十余年内管理过12支球队。“用统计数据来做决定太不靠谱了。我们这儿可不是在说棒球或者美式足球哦。”。


但格雷厄姆不肯相信。


他从小就是利物浦的粉丝。他的童年时期,也就是上世纪七十与八十年代,正好就是利物浦称霸足坛的时期。球队当时最好的队员之一伊恩·拉什(Ian Rush)也正巧是威尔士人。在每一场比赛前,他会与其他三位为他干活的分析员一起整理一份信息情报包。


经常会有矛盾的结论发生,比如这份情报包给出的建议与仅仅观看赛事视频而得出的结论不符合。(如果仅仅依据视频的话)格雷厄姆团队可能会报告说,队里左边锋脚劲很足,能够将球直接秒传到门前。


而根据数据得出的结论却是,右翼传来的不那么快速的球往往更加精准,能够带来更多的进球。


这听起来很基础,但在足坛却是一场革命。


格雷厄姆最重要的责任是帮助利物浦决定招募哪些球员。他通过将赛事信息输入公式来进行决策,而非通过观看比赛视频。“我不喜欢视频,”他说。“它们会带来偏见。”。


格雷厄姆希望他为之工作的俱乐部能够获胜,但他也希望他的判断得到验证。“我们会针对所有的球员谈论他们的相对优点,”他说。“如果他们做得不好,我会把它视为个人的冒犯。如果我认为某人是一名优秀的球员,我是真的非常希望他们能够表现优秀的。“。


格雷厄姆在剑桥大学经历了两年的博士后工作后,意识到自己其实并不想成为一名科学家。他所在领域聚合物物理学早就在多年以前就取得了大部分重大突破。


“经典论文多完成于20世纪70年代,”他说。“因此我就转而去寻找一些可能会取得一些进展的事情。”。当有人转发他一份为足球队提供分析咨询的初创公司岗位广告时,他很感兴趣。他得到了这份工作,并被告知去阅读《点球成金》一书。


从2008年到2012年的四年间,格雷厄姆一直在为托特纳姆提供咨询服务。当时的托特纳姆经理们对他的建议都丝毫不感兴趣——在那个时期,几乎没有哪位足球经理对此有兴趣。随后芬威收购了利物浦,并开始改变其队伍文化。他们招募了格雷厄姆来建立一个与其棒球队研究部门类似的团队。当时的大众基本都是在嘲笑此举。


利物浦情报部门的老板Barry Hunter说,”‘只会瞎敲电脑的人’、‘都是假球迷’——一直到几个月前,这些都是非常常见的评论。《点球成金》一书经常被用来攻击我们“。


”但是格雷厄姆心比较大,几乎没有注意到这些嘲笑。他完全沉浸在自己寻找球队可改进之处的工作中——寻找那些被埋没在人海中、价值被低估的球员们。去年冬天的一个下午,他在电脑上画了几张图表并投影到大屏幕上。这些图表包含了一系列指标——总进球数,每分钟平均进球数,助攻数,预期进球数等等。我很惊讶看到他在研究这些指标,他一贯告诉我这些是最基础最简单的指标的。但是他说的对。有时你并不需要去研究比这更复杂的东西。”,他说。


数据分析团队成型,成员背景各式各样


在梅尔伍德,球队的训练中心位于利物浦一个住宅区。格雷厄姆的办公室是教练室与自助餐厅那条走廊最里面那间白色的房间。


不止格雷厄姆,利物浦的数据分析团队成员背景绝不亚于任何一家IT巨头。


比如,坐在格雷厄姆左侧的是Tim Waskett,学习天体物理;他旁边坐着Dafydd Steele,他是一名曾获得青少年国际象棋冠军、曾在能源行业工作的数学研究生。


团队最近刚来的那个分析员Will Spearman的背景则更奇怪。他在德州长大,父亲是位教授。在哈佛完成了高能物理博士学位后,他曾在日内瓦的欧洲核子研究中心工作(就是那个验证了亚原子希格斯玻色子的存在的地方)。他的论文提供了第一种直接测量粒子宽度与质量的方法。


应该再也没有别的俱乐部会聘请像格雷厄姆或Steele这样的分析师,或者Waskett,甚至可能是Spearman。只有利物浦才会聘请这样背景复杂的团队。


Spearman与利物浦最近的成功并没有多大关系。他并不参与那些克洛普能直接看到的工作,他也很少参与发现球员的任务。他的任务很“虚”。他还不太了解足球行业,不过他的理解程度差不多也够了。“我们仅仅刚开始提出这样的问题——为什么不尝试稍微不同的方式来踢球呢?“格雷厄姆解释道。


足球是成千上万个人行动的总和,但格雷厄姆的模型中唯一可以评估的是从官方比赛中下载的传球,射门和球的动作。


“我们的数据仍存在根本性的局限性,”格雷厄姆说,”就像是通过迷雾看世界一样。“。


他们试图通过数学来模拟场上实际发生的事情——不仅仅是记录下来后卫传了一次球给中场,它还包括这一次传球的难度以及当中场收到球后又发生了什么。Spearman正在寻找穿过这重重迷雾的路径。


他的大部分时间都花在创建采用视频跟踪的模型上。它为每个人发生的事情分配数字分数,即使有些人并未直接控球。这可以包括一名后卫在边线奔跑,迫使一名落单的防守球员在两名球员之间做出选择,或者一名前锋在门将面前直接试图接到一个助攻,即使最终传球越过了他的头顶——“每一个动作,它增加了多少价值,表现得如何,“,Spearman说。


“一旦你得到了这些数据,你就可以开始研发新的方法了。”可能就像在NFL那样的剧本剧,从根本上改变了一个多世纪以来抵制变革的赛事的本质。


但是,利物浦首先需要弄清楚如何击败托特纳姆。


就像棒球一样,这支现有的俱乐部仍然还没有赢得任何胜利。决赛中的另一场失利,加上英超联赛落后曼城,人们甚至可以得出结论说,数据分析也只能让球队走这么远了。


当然,这是不严谨的。


如果足球是大豆交易,你完全可以将数据输入算法,然后就知道下一步该做什么了。但实际上恰恰相反,这项运动的不可预测程度已足够其保持吸引力。到处都是完美的计划与不太完美的执行力,最终导致变化无常的结果。


但这就是概率的运作方式。


即使你有精心计算赔率并设计权衡选项,错误的数字依然可能出现。最终获胜的团队并不总是计算最精准的那支,甚至可能并非模型预测的结果。这是John Henry在他小时候玩的棒球模拟中掷骰子得到的教训。这或许让分析师感到沮丧——但它可以使比赛变得精彩。


相信数据还是人?


渣叔在多特蒙德时期并没有数据分析师相助,也不相信这些。在这方面,他就像大多数教练一样。


但是,当格雷厄姆在2015年早上离开他的办公室时,克洛普似乎顿悟了。他确信格雷厄姆虽然没有观看过多特蒙德的比赛,但他对球队遭遇的不幸的感同身受,就像他自己在执教一样。后来,克洛普得知,如果没有格雷厄姆对多特蒙得那个赛季比赛的分析,他就不会被利物浦雇用。


5月初,在欧洲冠军联赛半决赛次回合的第79分钟,利物浦通过一个角球将球打进。20岁的后卫阿诺德走向球场接受利物浦的队友拥抱。他说,“当你看到机会的时候就不要失去。”亚历山大-阿诺德向后走了四步,假装好像回到了他的位置。突然他转向方向,跑向球并将球射进巴塞罗那的球门。


那时,利物浦已经上演了一场不可思议的逆转,让半决赛以平等的方式回归。因为球队在主客场系列赛的第一场比赛中被灌了三球。在次回合比赛开始之前,巴塞罗那是进入决赛的最佳选择,第一场比赛的结果似乎证实了这一评估。因为利物浦赢巴萨体彩达到了100比1800。


格雷厄姆的分析团队只能逐步推动团队的积极方向,一次推动一个。而且因为Klopp还从更传统的来源获得建议,他选择的策略最终是数据驱动和直观的混合。


为了准备欧洲冠军联赛半决赛,他似乎专注于俱乐部的球队防守如何对巴塞罗那队的前锋施加压力,拦截传球以及试图将他们转变为快速反击。实施证明该战术主要是有效的。在第一场比赛的开场时间里,巴塞罗那队的球员们似乎很慌张。但正如在足球中经常发生的那样,战术优势并没有转化为进球。相反,前利物浦球员路易斯苏亚雷斯为巴塞罗那队打进首个进球。


要是比赛就在这里结束了的话,对于利物浦在19世纪以来的主场安菲尔德的第二场球赛而言,这样一场1比0的失败其实很容易反转。但是在比赛后期,巴塞罗那的巨星梅西梅开二度。最后一个进球是一个任意球,越过了防守墙也越过了利物浦守门员伸出的手。


这似乎传达了这样一条消息:没有任何数据分析能够抵抗如此高超的足球技术。“有些时候”,克洛普赛后陈述,“没有人能够阻挡得了他。”


后利物浦时代,数据分析征服各大俱乐部


近年来,Analytics(数据分析)一直影响着职业棒球和篮球比赛的战术。最终,它同样会对足球产生巨大的影响,传统足球并没有依靠统计数据来解决任何问题。


格雷厄姆在剑桥大学获得理论物理学博士学位,他建立了自己的数据库,以跟踪来自世界各地的100,000多名球员的发展情况。通过推荐利物浦应该尝试获得哪些,以及如何使用新加盟的球员,他帮助俱乐部重新回到昔日的荣耀。


两个星期前,利物浦赛季结束,这比历史上任何一个赛季都具有吸引力。它在英超联赛的38场比赛中仅输了一场,但排名第二。卫冕冠军曼城在赢得自1月份以来的每一场联赛比赛后的最后一天,仅仅落后利物浦一分。(在英超联赛中,利物浦在本赛季创下97分的最高分亚军得分。)


对于北美球迷而言,利物浦背后的老板是同样拥有波士顿红袜棒球队的美国商人,而曼城则与纽约洋基队有业务往来。


利物浦在试图保持领先蓝月亮曼城的同时,也在欧冠中与其他国家的顶级球队竞争。在本月举行的半决赛中,首场比赛三球失利的情况下,主场4-0击败了巴塞罗那(也许是这个世界上最好的足球队),实现了惊天大逆转。6月1日,在决赛中将对阵英超联赛的对手托特纳姆热刺队。


利物浦比其他俱乐部更多地将数据分析纳入主教练制定的战术中。


但无论决赛的结果如何,俱乐部的上升已经在英格兰及其他地区开启了数据运算的潮流。随着越来越多的俱乐部考虑雇用没有足球运动背景的数据分析师来试图获得竞争优势,利物浦的赛季已经为这种做法作了最有力的背书。


相关报道:

https://medium.com/new-york-times-magazine/how-data-and-some-breathtaking-soccer-brought-liverpool-to-the-cusp-of-glory-d740cf0e0ee9



实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn



志愿者介绍

后台回复志愿者”加入我们

点「在看」的人都变好看了哦
登录查看更多
0

相关内容

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
Julia 对决Python:谁能在2019年称霸机器学习编程?
七月在线实验室
3+阅读 · 2019年1月13日
计算:XGBoost背后的数学之美
论智
12+阅读 · 2018年8月20日
机器学习预测世界杯:巴西夺冠
新智元
5+阅读 · 2018年6月11日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
视频 | 如何用 AI 预测股价?
AI研习社
5+阅读 · 2017年6月30日
推荐系统老司机的十条经验
ResysChina
15+阅读 · 2016年11月16日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
6+阅读 · 2018年4月4日
Arxiv
3+阅读 · 2018年4月3日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
4+阅读 · 2018年1月15日
Arxiv
5+阅读 · 2016年12月29日
VIP会员
相关资讯
Julia 对决Python:谁能在2019年称霸机器学习编程?
七月在线实验室
3+阅读 · 2019年1月13日
计算:XGBoost背后的数学之美
论智
12+阅读 · 2018年8月20日
机器学习预测世界杯:巴西夺冠
新智元
5+阅读 · 2018年6月11日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
视频 | 如何用 AI 预测股价?
AI研习社
5+阅读 · 2017年6月30日
推荐系统老司机的十条经验
ResysChina
15+阅读 · 2016年11月16日
Top
微信扫码咨询专知VIP会员