Building reliable machine learning systems requires that we correctly understand their level of confidence. Calibration focuses on measuring the degree of accuracy in a model's confidence and most research in calibration focuses on techniques to improve an empirical estimate of calibration error, ECE_bin. Using simulation, we show that ECE_bin can systematically underestimate or overestimate the true calibration error depending on the nature of model miscalibration, the size of the evaluation data set, and the number of bins. Critically, ECE_bin is more strongly biased for perfectly calibrated models. We propose a simple alternative calibration error metric, ECE_sweep, in which the number of bins is chosen to be as large as possible while preserving monotonicity in the calibration function. Evaluating our measure on distributions fit to neural network confidence scores on CIFAR-10, CIFAR-100, and ImageNet, we show that ECE_sweep produces a less biased estimator of calibration error and therefore should be used by any researcher wishing to evaluate the calibration of models trained on similar datasets.


翻译:建立可靠的机器学习系统要求我们正确理解其信任度。校准的重点是测量模型信任度的准确度,大多数校准研究侧重于改进校准错误经验估计的技术,ECE_bin。我们通过模拟,显示ECE_bin可以系统地低估或高估校准误差,这取决于模型校准的性质、评价数据集的大小和垃圾箱的数量。关键是,ECE_bin对校准精确度模型偏差较大。我们建议采用简单的校准误差标准,ECE_bin,其中选取了尽可能多的箱,同时在校准功能中保持单调。评估我们关于适合CIRA-10、CIFAR-100和图像网络神经网络信任分数的分布,我们表明ECE_webyer生成的校准误差估计器不那么偏差,因此,任何希望评价类似数据集所训练模型校准的研究人员都应该使用。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
124+阅读 · 2020年11月20日
【MIT经典书】统计学习与序列预测,261页pdf
专知会员服务
76+阅读 · 2020年11月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
已删除
将门创投
4+阅读 · 2019年5月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年2月19日
Arxiv
0+阅读 · 2021年2月19日
Arxiv
0+阅读 · 2021年2月18日
Arxiv
0+阅读 · 2021年2月17日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
5+阅读 · 2018年4月13日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
已删除
将门创投
4+阅读 · 2019年5月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年2月19日
Arxiv
0+阅读 · 2021年2月19日
Arxiv
0+阅读 · 2021年2月18日
Arxiv
0+阅读 · 2021年2月17日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
5+阅读 · 2018年4月13日
Arxiv
5+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员