Forecast evaluation plays a key role in how empirical evidence shapes the development of the discipline. Domain experts are interested in error measures relevant for their decision making needs. Such measures may produce unreliable results. Although reliability properties of several metrics have already been discussed, it has hardly been quantified in an objective way. We propose a measure named Rank Stability, which evaluates how much the rankings of an experiment differ in between similar datasets, when the models and errors are constant. We use this to study the evaluation setup of the M5. We find that the evaluation setup of the M5 is less reliable than other measures. The main drivers of instability are hierarchical aggregation and scaling. Price-weighting reduces the stability of all tested error measures. Scale normalization of the M5 error measure results in less stability than other scale-free errors. Hierarchical levels taken separately are less stable with more aggregation, and their combination is even less stable than individual levels. We also show positive tradeoffs of retaining aggregation importance without affecting stability. Aggregation and stability can be linked to the influence of much debated magic numbers. Many of our findings can be applied to general hierarchical forecast benchmarking.


翻译:预测评价在经验证据如何影响学科发展方面发挥着关键作用。 域专家对与其决策需要相关的错误措施感兴趣, 此类措施可能产生不可靠的结果。 虽然已经讨论过若干计量的可靠性特性,但几乎没有客观地量化。 我们提出一个名为 Rank Stability 的措施,在模型和错误不变的情况下,评估类似数据集之间实验的等级差异有多大; 我们用它来研究M5的评估设置。 我们发现M5的评估设置比其他措施的可靠性要低。 不稳定的主要驱动因素是等级汇总和缩放。 价格加权降低了所有测试的错误措施的稳定性。 M5误差衡量的尺度标准化结果比其他无比额表错误的稳定性要低。 单列的等级水平在总和总和性方面不那么稳定。 我们还用它来研究在不影响稳定性的情况下保留总和重要性的积极权衡取舍。 聚合和稳定性可以与许多有争议的神奇数字的影响相联系。 我们的许多调查结果可以应用于一般的等级预测基准。

0
下载
关闭预览

相关内容

LESS 是一个开源的样式语言,受到 Sass 的影响。严格来说,LESS 是一个嵌套的元语言,符合语法规范的 CSS 语句也是符合规范的 Less 代码。
专知会员服务
27+阅读 · 2021年7月3日
专知会员服务
31+阅读 · 2021年6月12日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
82+阅读 · 2020年9月27日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
0+阅读 · 2021年10月8日
Arxiv
1+阅读 · 2021年10月7日
Arxiv
0+阅读 · 2021年10月6日
VIP会员
相关VIP内容
专知会员服务
27+阅读 · 2021年7月3日
专知会员服务
31+阅读 · 2021年6月12日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
82+阅读 · 2020年9月27日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员