来源:CPDA数据分析师网 / 作者:数据君
为什么需要数字评分指标?
从投资组合经理的决策到一天,一周和一年中不同时间的电价,这些模型在现实世界中会产生许多后果。需要数字评分指标才能:
1、选择最准确的模型
2、估计模型误差对现实世界的影响
五个数字预测模型的实际用例,并且在每个用例中,我们都从略有不同的角度来衡量预测精度,在一种情况下,我们测量模型是否具有系统偏差,而在另一种情况下,我们测量模型的解释力。本文的结尾是对数字评分指标的回顾,显示了计算它们的公式以及它们的属性摘要。
cpda数据分析师
五个指标:关于预测准确性的五个不同观点
(均方根)均方误差(R)MSE –哪种模型最能反映出动荡的股票市场的快速变化?
在下图中,您可以看到收盘价从2011年到2016年的变化,在该时间段内,行为包括突然的峰值,突然的低点,更长的价值增加和减少时间以及一些稳定的时间段,预测这种不稳定行为具有挑战性,尤其是从长期来看,但是对于利益相关者来说,它是有价值的,因此我们更喜欢一个能够捕捉突然变化的预测模型,而不是一个在五年内平均表现良好的模型。
我们选择具有最低(均方根)误差的模型,因为与小误差相比,该度量指标对大误差的加权更大,并且偏向于能够对短期变化做出反应并节省利益相关者钱的模型。
cpda 数据分析
平均绝对误差,MAE –哪种模型可以长期最佳地估算能耗?
在图2中,您可以看到2009年7月小时能耗值,该值是从一系列家庭和行业中收集的,能耗显示出相对规则的模式,在工作时间和工作日的能耗较高,而在晚上和周末的能耗较低,这种常规行为可以相对准确地进行预测,从而可以长期规划能源供应,因此我们选择平均绝对误差最低的预测模型,我们这样做是因为它平均权衡大小错误,因此对异常值具有鲁棒性,并显示哪个模型在整个时间段内具有最高的预测准确性。
cpda 数据分析
平均绝对百分比误差,MAPE –不同产品的销售预测模型是否同样准确?
在炎热的夏天,应保证同时提供苏打水和冰淇淋!我们要检查预测这两种产品销售的两种预测模型是否同样准确。
两种模型都以相同的单位(已售商品的数量)生成预测,但是以不同的规模生成预测值,因为苏打水的销量要比冰淇淋大得多。在这种情况下,我们需要一个相对误差度量,并使用平均绝对百分比误差,报告相对于实际值的错误。在图3中,在左侧的线图中,您会看到2020年6月的苏打水(紫色线)和冰淇淋(绿线)的销售量以及两种产品的预测销售量(红线)。苏打水的预测线似乎比冰淇淋略有偏离。但是,苏打水的较大实际值会影响可见的比较。实际上,气泡水的预测模型比冰淇淋的预测模型要好,正如气泡水的MAPE值0.191和冰淇淋的0.369所报告的那样。
但是请注意,当实际值接近零时,MAPE值可能会有偏差。例如,与夏季相比,冬季的冰淇淋销量相对较低,而全年的牛奶销量则保持稳定。当我们通过MAPE值比较牛奶和冰淇淋的预测模型的准确性时,冰淇淋销售中的小值使冰淇淋的预测模型与牛奶的预测模型相比显得不合理。
在图3的中间线图中,您可以看到牛奶(蓝线)和冰淇淋(绿线)的销售以及两种产品的预测销售(红线)。如果我们看一下MAPE值,则牛奶(MAPE = 0.016)的预测准确性显然要好于冰淇淋(0.266)的预测准确性。但是,这种巨大的差异是由于冬季几个月冰淇淋销售的价值较低。图3右侧的折线图显示了冰淇淋和牛奶的实际和预测销售额完全相同,并且冰淇淋的销售量每月增加了25种。如果没有接近零的偏差,那么冰淇淋(MAPE = 0.036)和牛奶(MAPE = 0.016)的预测精度现在就非常接近。
cpda 数据分析
均值差异–正在运行的应用程序是否提供不切实际的期望?
可以将智能手表连接到正在运行的应用程序,然后以10k的运行时间估算完成时间。作为激励因素,该应用程序可能估计的时间比实际预期的要短。
为了测试这一点,我们从一组跑步者那里收集了六个月的估计完成时间和实现时间,并在图4的线图中绘制了平均值。如您所见,在六个月中,实现时间(橙色线) )的下降速度比估算的完成时间(红线)慢得多。我们通过计算实际和估计完成时间之间的平均有符号差来确认估计中的系统偏差。它是负数(-2.191),因此该应用确实引起了不切实际的期望!但是请注意,该度量标准不能提供有关误差大小的信息,因为如果有一个跑步者的实际跑步速度比预期时间快,则该正误差会补偿负误差的一部分。
cpda 数据分析
R平方-通过阅读文学可以解释我们多少年的教育?
在图5中,您可以在人口样本中看到获得文献的机会(x轴)和受教育的年限(y轴)之间的关系。将线性回归线拟合到数据以对这两个变量之间的关系进行建模。为了测量线性回归模型的拟合度,我们使用R平方。
R平方表明模型所解释的目标列的差异(受教育年限)。根据模型的R平方值0.76,对文献的访问权解释了教育年份中76%的方差。
cpda 数据分析
我们介绍了最常用的错误度量以及它们对模型性能的影响
通常建议您查看多个数字评分指标,以全面了解模型的性能。例如,通过查看均值符号差,您可以查看模型是否存在系统偏差,而通过研究(均方根)均方根误差,则可以查看哪种模型最能捕捉突然的波动,可视化(例如线图)补充了模型评估。