影响一级方程式(F1)赛车比赛结果的因素有很多。可以合理地说,F1比赛首先在工厂获胜,然后在赛道上获胜。F1车队在比赛中积累了大量数据。
本文提到了一种数据驱动的方法来确定影响每位车手在 F1 赛季中获得总分的最重要因素。人们执行相关性分析以及主成分分析(PCA),以确定密切相关的因素。

此外,使用 PCA,能有效地将1个输入变量减少到一个低维子空间中,这可以解释我们数据中的大部分方差,并且更容易理解。使用这个网络报废的F1比赛研究来了解不同汽车功能对车手在本赛季总得分的影响。这项工作在F1赛车领域是首创的。
介绍世界上最受欢迎的运动之一是一级方程式(F1)。车迷在观看比赛时获得的速度快感和咬牙切齿的体验是大量工程、数据科学、管理,当然还有赛道上大量训练的结果。
经常被低估的是,比赛首先在工厂赢得,然后在赛道上获胜。F1车队努力在获得最高速度和下压力之间保持恒定的平衡,空气动力学起着重要作用。这些团队试图通过使用他们在过去几个赛季中积累的大量数据集来预测他们将完成的位置。

深入研究这项运动并分析相关分析以了解其对 F1车手累积的总赛车积分的影响是值得的。在这项工作中,研究人员提供了一个数据驱动的框架来了解各种赛车统计数据,并检查它们对F1赛车手表现的影响。
数据数据集提供有关以下属性的信息:
- 每个赛车手平均进站次数由平均进站表示
- 有关每种轮胎类型使用百分比的信息由变量硬、中、软、超软、湿和中湿表示其使用百分比
- 每个车手在赛季中在每个位置花费的圈数仅考虑第一、第二和第三位置
- 车手开始比赛由变量 Started 表示,完成90%的比赛分类的车手由变量Classified表示,车手在赛季中通过覆盖100%比赛距离完成的比赛由变量Done表示
- 领先(由 Full.seasons.laps.led 表示)和车手赛季圈数领先(由 Driver.s.season.laps.led 表示)分别解释了赛季中领先圈数的百分比以及该车手涵盖的所有比赛圈数
- 赛季中每位赛车手的事故数由变量Accident表示
- 每个车手对车队和车手的处罚分别由Punishment.due.to.team和Punishment.due.to.driver表示。同时,如果没有给予惩罚,则计为无操作,由变量No.action表示
- 每位车手在应用处罚后开始每场比赛的平均位置由 Average.pole.position 表示
- 车手在赛季中获得的总积分用总积分表示,这些积分最终决定了每个赛季的获胜者
数据修剪:数据修剪是指删除分析不需要的不需要的数据。在例子中,研究人员对异常值的属性进行了数据修剪。属性(W)描述了所有退出比赛的车手。
在这里,所有的赛车手都参加了比赛,没有车手退出。因此,此属性已删除。此外,属性未合格(DNQ)包含未符合条件的赛车手的所有数据。但是,所有车手都有资格参加最后一场比赛,因此此属性被删除。

处理缺失值:数据修剪后,检测并分析缺失值的原因。数据中的缺失值不是因为数据输入错误或避免的数据。这是因为司机没有参与该事件。例如,如果发生事故,只有几个司机受到影响。因此,缺失值被替换为零。
数据转换经过转换的变量如下:
- 进站数据根据每圈(即22圈)被提及。计算了数学平均值,并创建了每个驾驶员的平均进站时间。
- 轮胎数据以百分比的形式出现。删除所有特殊字符,并将百分比规范化为十进制格式。
- 全赛季圈数领先,车手季圈数领先采用百分比形式,标准化为十进制格式。
在数据集中拥有的变量都被认为是重要的,但是有22个变量,因此拥有一个特征选择过程以获得更独立和不相关的输入变量集变得更加重要。

大多数分类算法在相互独立的输入变量上蓬勃发展,以解释数据集中的最大变化和趋势。
变量的相互依赖性在本节中,研究人员对上述各节中描述的所有变量进行相关性分析。他们使用了R函数corrgram在案例中,如前所述,所有属性都被认为对研究很重要,并且没有手动删除特征。
在他们执行任何分类任务之前,了解不同特征之间的相关趋势非常重要。这是因为如果两个特征完全相关,那么另一个特征可以有效地描述另一个特征。图1描述了属性如何相互关联。

可以观察到,平均杆位与第一、第二和第三位置呈强烈负相关。这是有道理的,因为更高的平均杆位可能意味着赛车手在比赛结束时没有在第一、第二或第三位置完成——这也表明平均杆位可能是决定车手终点位置的关键因素之一。
有趣的是,当观察到团队处罚似乎与使用软胎和超软轮胎有关——使用软轮胎通常产生的处罚更少,而使用超软轮胎会产生更多的处罚。此外,超软轮胎与事故的发生呈正相关,与它们可能导致更多处罚的事实一致。而位置特征,即第一、第二和第三位置,在很大程度上正相关于完成的圈数、车手领导的整个赛季圈数以及车手是否被分类。最后一个有趣的关系是驾驶员分类与事故发生之间的强负相关关系。
组件解释的变化下图描述了每个正交主分量捕获的方差,可以观察到前两个主成分捕获了总方差的50%,前4个主成分捕获的累积方差约为70%。这表明大多数种族特征是相互关联的,并且可以有效地将原始特征空间中的总信息缩减到低维子空间,而不会丢失重要信息。

可以在主成分的新子空间表示中表示赛车变量,通过双图图中的点表示数据集中的不同种族观测值,一般用向量表示赛车变量。
双图提供了有关F1赛车比赛变量的有趣见解,可以观察到每个种族变量对主成分的贡献,以及它们之间的相关性。位置变量,即第一位置、第二位置、第三位置彼此相关,对第二主成分有很强的贡献。
除此之外,与车手在比赛中的位置相关的其他变量对PC1的贡献非常大,因此使其成为可能解释车手位置方面的PC。团队造成的事故和处罚是相互关联的。在任何其他PC上都没有看到类似的变量依赖性,因此其他三个组件以累积方式解释了输入变量的变化。

PCA因子载荷解释了每个变量对每个分量的载荷,它还显示了每个变量对每个主成分的载荷范围,粗体荷载显示每个主分量的前6个荷载量级。它帮助我们了解每个主成分可能代表什么。例如,与上一节中的结果类似,第一台PC显示所有与位置相关的变量的强载荷。同样,第三台PC在轮胎相关变量上具有最大载荷,从而根据比赛期间使用的轮胎类型考虑差异。一个变量也可能在多个主成分上具有高载荷。
对赛季总冠军积分的影响数据包括从2015年到2019年连续4年的赛季信息。线性回归中的因变量是车手在每个赛季中获得的总分,用 Total.Points 表示。这被选为因变量,因为最终得分最高的车手赢得了赛季。
先研究输入变量对总分的影响。可以观察到,车手在一个赛季中完成的比赛次数对总积分有显著影响。除此之外,车手在一个赛季中每完成一场比赛,总积分就会增加6个单位。在所有轮胎类型中,只有中、软、超软和中级轮胎类型对总积分有显著影响。

根据线性回归结果,赛季中级增加的百分比,总积分增加4。使用中、软和超软轮胎类型(这也是本赛季最常用的轮胎类型)的百分比增加,每种轮胎的总得分都会增加2分。除此之外,车手在第二位置花费的圈数增加,用第二位置表示,总积分将增加0.20,第三位置的结果类似。
这个模型的一个有趣的发现也是Average.Pol.Pos对Total.Points的影响。Average.Pol.Pos功能表示每位车手在赛季期间保持的平均起始位置。平均点数增加一个单位将导致总点数减少3个点,线性回归模型的R平方值为99%,这意味着该模型能够捕获数据中近99%的变异。
结论和今后的工作在本文中,研究人员对与F1赛车比赛相关的各种变量进行了系统分析。研究人员已经确定了有助于赛车比赛取得有利结果的最重要变量。
使用一组统计技术得出了结论,大多数变量彼此密切相关。本文还推测,原始特征空间可以显著减少到低维子空间,而不会显着丢失信息。

未来的工作包括将这种系统分析延长到5年以上的更大统计期,以收集更多数据并进一步调查分析,此外还计划研究线性回归模型,方法是通过应用前向和或后向步回归来修改线性回归模型以使用一组选定的种族特征。
●—<参考文献>—●
【1】Dev,S.:分析印度新德里的空气污染物浓度
【2】van Sark,W.:用于光伏输出功率估算的气象变量的系统分析
【3】DMCNet:用于理解视频截屏参与度的多样化模型组合网络。系统软计算
【4】Bishell,A.:机器学习和新西兰赛马预测
【5】S.:从地面观测中监测大气污染物
【6】Dev,S.:预测澳大利亚昆士兰州的地面PM2.5浓度
,

















