AI预测世界杯?算了,足球比我女朋友都难猜 - 知乎
火热的欧洲冠军联赛刚刚落下帷幕。
在最终的决赛中,萨拉赫罚入点球,替补奇兵奥里吉再进一球。最终利物浦以2-0战胜热刺,时隔14年再度登上冠军王座。当地的利物浦球迷欢呼雀跃,马德里成了一片红色的海洋。
而正如鲁迅先生所说,有比赛就有输赢,有输赢就有赌输赢的群众。
这些群众包括小智这样的普通球迷,还有足球博彩机构,甚至谷歌、微软等互联网巨头也曾来凑过热闹。
而为了预测赛事的结果,大家又可谓是“各显神通”:有的追随专家分析,有的靠自己做梦,还有的相信章鱼玄学······章鱼保罗在2008欧洲杯和2010世界杯中,预测14次猜对13次,成功率达93%
作为一名优秀的社会主义接班人,那些歪门邪道小智我当然是一个都不信的。唯有科学的数据分析和模拟,才算得上严谨的预测。
其实,早在前几届世界杯期间,各路Geeker就已经采用过各不相同的AI算法和特征数据,做过这样的预测尝试。甚至,著名物理学家霍金生前也曾研究过世界杯夺冠公式!(公式将在文章后半段解读)
那么,各家预测的结果准确度如何呢?谁又是能够一语言中的“神算子”
我们先来看看一项在算法和数据方面都颇有代表性的实验,它是由来自德国和比利时的四位研究人员在2018年进行的。
实验中,他们使用自过去四届FIFA 世界杯(2002-2014)的所有比赛结果作为数据集,希望以此来预测2018年的冠军。
此外,他们还考虑了许多相关的特征,比如
经济因素(国家人均GDP、人口数量等)
运动因素(ODDSET 概率,FIFA 排名等)
主场优势(主办方、大陆、联邦等)
团队结构(队伍中同一俱乐部队友的人数、队员平均年龄、参加冠军联赛的球员数量等)
教练因素(教练的年龄、任期、国籍)等等。
研究人员认为,这些因素看似没有直接决定赛事的结果,但很容易影响球员和队伍的整体状态,因此很有必要纳入考虑。
在算法上,他们采用了随机森林算法(Random Forest)。这一基于决策树的算法是机器学习的一个重要分支,并且具有很高的准确率,在许多数据分类任务中都曾表现出优异的性能。
最后,经过10万次赛事模拟,研究团队预测出了夺冠可能性最高的前三名,分别是西班牙队( 28.9%)、德国队(26.3%)和巴西队(21.9%)。
万事俱备,就只等最终的结果验证了。
不久之后,激动人心的时刻到了——2018年俄罗斯当地时间7月15日,在最终的世界杯决赛中,法国队夺冠。2018年俄罗斯世界杯法国队夺冠
而回过头来看研究人员先前的预测结果,可以说是错到离谱了——他们押宝的西班牙队和德国队在实际比赛中甚至都未能进入四分之一决赛,最后夺冠的法国队在他们之前的预测中也仅排名第4。预测名次&实际名次
再看赛前积极预测的各家机构,最终结果也基本是不同程度的打脸,准确率稍高一些的,也并没有超过章鱼保罗的。
这样的结果让人倍感困惑:尽管拥有适当的数据类型、数据体量,使用了参数正确的优秀算法,那为何这些训练有素的模型最终仍会失败呢?
其实,失败的原因就在于我们所预测的对象——足球比赛,在各要素的维度上都并不是一个有规律的事件。
和其它以人为重点的事件一样,足球比赛在赛前和赛中都有太多让人无法判断是否确实相关的影响因素,也就是所谓的混淆变量。
而场上每分钟(甚至每秒钟)的状态,都取决前一分钟(前一秒钟)的状态。这种马尔可夫链过程又意味着,要把数据集中每场比赛的每一分钟都模拟出来,才能得到相对准确的模型。
马尔科夫链的定义:事件某一时刻的状态只取决于它在上一时刻的状态。图为应用了马尔科夫链的天气预测过程。
除此之外,比赛结果还可能受到一些外部因素影响,例如天气、政治情况、地理因素,甚至某个球员前一晚没睡好都可能会影响整场比赛的结果走向。而这些重要特征通常都很难被收集和衡量。
更何况,还存在意外发生的可能性,例如一个致命失误或意外进球,都是无法预测的。
简而言之,像足球比赛这样以人为主的活动,是当下的AI技术还无法很好驾驭的领域。
这也是为什么小智说,足球比我女朋友都难猜——足球的结果跟一大票人有关,而我女朋友的心思只跟她一个人······咦,我女朋友呢?
对于足球比赛结果的不可预见性,著名物理学家霍金似乎比我们更早地发现了。不过,这并没有妨碍他对足球运动的热爱。
公式发布现场
这位著名的物理学家曾在公开场合多次参与世界杯冠军的预测,甚至还娱乐性地自创过一套“完美点球公式”。
其中,X0是一个已知变量
罚球队员是前锋,则α1=1;是后卫,则α2=1
罚球队员瞄准球门左边,则β1=1;瞄准右边,则β2=1
罚球队员的头发颜色为淡黄色,则δ=1
罚球队员瞄准球门上1/3,则θ1=1;瞄准球门下1/3,则θ2=1
罚球队员用脚的侧面踢球,则ε=1
罚球队员不助跑就直接踢球,则η=1
除此之外,霍金还配合着这个公式做了一些数据解读:
“我研究了1978年世界杯以来的所有点球,得出了‘完美点球公式’。主要是因为英格兰球员准头太差了,他们用铲子都打不到牛屁股······(这也就是他搞出这个公式的原因:被英格兰历史上的那些失败点球蠢哭)
首先,速率是关键,必须跑三步以上,把速度提起来。只跑三步或者更少步数的球员,他们的点球命中率只有58%,远低于平均水平的87%。
使用脚侧比正脚背能高出10%的命中率。
把球踢向左右两个上角更容易罚进点球,成功率高达84%。
用左脚还是右脚对结果没有什么影响。
前锋比后卫和中场球员更容易进球。
金发球员和秃顶球员的命中率更高,金发球员的命中率高达84%,秃顶球员71%的命中率也高于深色头发球员的69%,但我不清楚原因是什么。
对于守门员,跳来跳去分散主罚者的注意力,将会提高18%的扑救成功率。”
看完以上信息,你是不是和小智一样觉得一脸懵逼?这个公式连带公式的解释,无论怎么看都让人觉得槽点满满。
不过,这本来也不是真正的科学研究,霍金曾表示“和足球相比,我认为量子物理相对而言更直接一些。”
而所谓的“完美点球公式”,也只是老顽童跟大家开的一个玩笑,顺便怒其不争地调戏一下自己祖国的英格兰队,毕竟“爱到深处自然黑”。
缅怀这位可爱的伟人
当然,在足球赛结果预测中的失败并不意味着AI在“预测”这件事上毫无用处。例如对单个球员的跑步距离、速度、加速度、减速度、负荷和心率等等数据来进行研究,以预测运动员在某场比赛中的场上表现,这样得出的结果就比较具有参考价值。
毕竟AI只是一种工具,我们如何使用、在怎样的前提条件下使用的这种工具,才是决定其价值的关键所在。
皮一下
其实我挺信“霍金点球公式”的,它的大概含义就是:英格兰靠点球夺冠的概率约等于0·······
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。