Forecasting and forecast evaluation are inherently sequential tasks. Predictions are often issued on a regular basis, such as every hour, day, or month, and their quality is monitored continuously. However, the classical statistical tools for forecast evaluation are static, in the sense that statistical tests for forecast calibration are only valid if the evaluation period is fixed in advance. Recently, e-values have been introduced as a new, dynamic method for assessing statistical significance. An e-value is a non-negative random variable with expected value at most one under a null hypothesis. Large e-values give evidence against the null hypothesis, and the multiplicative inverse of an e-value is a conservative p-value. E-values are particularly suitable for sequential forecast evaluation, since they naturally lead to statistical tests which are valid under optional stopping. This article proposes e-values for testing probabilistic calibration of forecasts, which is one of the most important notions of calibration. The proposed methods are also more generally applicable for sequential goodness-of-fit testing. We demonstrate that the e-values are competitive in terms of power when compared to extant methods, which do not allow sequential testing. Furthermore, they provide important and useful insights in the evaluation of probabilistic weather forecasts.


翻译:预测和预测评价是必然的相继任务。预测通常定期发布,如每小时、日或月,并不断监测其质量。然而,预测评价的典型统计工具是静态的,因为预测校准的统计测试只有在评价期提前固定的情况下才有效。最近,电子价值被引入为评估统计意义的一种新的动态方法。电子价值是一种非负性随机变量,在完全假设下,其预期值最多为一个。大型电子价值提供证据反对无效假设,电子价值的倍增反面是一种保守的p价值。电子价值特别适合顺序预测评价,因为它们自然导致统计测试,而这种测试在任择性停止的情况下是有效的。这一文章提出了测试预测的概率校准电子价值,这是最重要的校准概念之一。拟议方法也更普遍地适用于连续性良好测试。我们证明,电子价值在能力方面与远端的天气预测方法相比具有竞争性,因此无法进行重要的连续性观测。此外,电子价值提供了重要的连续性预测。此外,电子价值提供其评估在与远端的天气预测中具有竞争性。

0
下载
关闭预览

相关内容

专知会员服务
27+阅读 · 2021年5月2日
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
193+阅读 · 2020年3月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
LeetCode的C++ 11/Python3 题解及解释
专知
16+阅读 · 2019年4月13日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
已删除
将门创投
3+阅读 · 2019年1月8日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年11月17日
A unified framework for bandit multiple testing
Arxiv
0+阅读 · 2021年11月17日
Arxiv
0+阅读 · 2021年11月15日
VIP会员
相关VIP内容
专知会员服务
27+阅读 · 2021年5月2日
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
193+阅读 · 2020年3月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
LeetCode的C++ 11/Python3 题解及解释
专知
16+阅读 · 2019年4月13日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
已删除
将门创投
3+阅读 · 2019年1月8日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员