We propose a "learning to reject" framework to address the problem of silent failures in Domain Generalization (DG), where the test distribution differs from the training distribution. Assuming a mild distribution shift, we wish to accept out-of-distribution (OOD) data whenever a model's estimated competence foresees trustworthy responses, instead of rejecting OOD data outright. Trustworthiness is then predicted via a proxy incompetence score that is tightly linked to the performance of a classifier. We present a comprehensive experimental evaluation of incompetence scores for classification and highlight the resulting trade-offs between rejection rate and accuracy gain. For comparability with prior work, we focus on standard DG benchmarks and consider the effect of measuring incompetence via different learned representations in a closed versus an open world setting. Our results suggest that increasing incompetence scores are indeed predictive of reduced accuracy, leading to significant improvements of the average accuracy below a suitable incompetence threshold. However, the scores are not yet good enough to allow for a favorable accuracy/rejection trade-off in all tested domains. Surprisingly, our results also indicate that classifiers optimized for DG robustness do not outperform a naive Empirical Risk Minimization (ERM) baseline in the competence region, that is, where test samples elicit low incompetence scores.


翻译:我们提出了一个“学习拒绝”的框架来解决领域泛化中沉默故障的问题,其中测试分布与训练分布不同。在假定轻微分布转移的情况下,我们希望只有当模型的估计能力预示着可信任的响应时,才接受来自分布外的(OOD)数据,而不是直接拒绝它们。然后通过与分类器的性能密切相关的代理无能力分数来预测可信度。我们对分类和衡量无能力分数的不同学习表示在封闭和开放世界的环境中进行了全面的实验评估,并强调了拒绝率与准确性增益之间的权衡。为了与之前的工作进行比较,我们专注于标准领域泛化基准,并考虑使用不同的学习表示衡量无能力时的效果。我们的结果表明,增加无能力分数确实预示着减少的准确性,在适当的无能力阈值以下显着提高平均准确性。然而,这些分数还不足以允许在所有测试领域中获得良好的准确性/拒绝率权衡。令人惊讶的是,我们的结果表明,专为DG鲁棒性优化的分类器并没有在能力区域优于天真的经验风险最小化(ERM)基线,即测试样品引出低无能力分数的区域。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
50+阅读 · 2020年12月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
从ICML 2022看域泛化(Domain Generalization)最新进展
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
38+阅读 · 2021年8月31日
Arxiv
12+阅读 · 2021年8月19日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
12+阅读 · 2021年6月29日
Arxiv
13+阅读 · 2021年3月29日
VIP会员
相关论文
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员