Machine learning has recently demonstrated impressive progress in predictive accuracy across a wide array of tasks. Most ML approaches focus on generalization performance on unseen data that are similar to the training data (In-Distribution, or IND). However, real world applications and deployments of ML rarely enjoy the comfort of encountering examples that are always IND. In such situations, most ML models commonly display erratic behavior on Out-of-Distribution (OOD) examples, such as assigning high confidence to wrong predictions, or vice-versa. Implications of such unusual model behavior are further exacerbated in the healthcare setting, where patient health can potentially be put at risk. It is crucial to study the behavior and robustness properties of models under distributional shift, understand common failure modes, and take mitigation steps before the model is deployed. Having a benchmark that shines light upon these aspects of a model is a first and necessary step in addressing the issue. Recent work and interest in increasing model robustness in OOD settings have focused more on image modality, while the Electronic Health Record (EHR) modality is still largely under-explored. We aim to bridge this gap by releasing BEDS-Bench, a benchmark for quantifying the behavior of ML models over EHR data under OOD settings. We use two open access, de-identified EHR datasets to construct several OOD data settings to run tests on, and measure relevant metrics that characterize crucial aspects of a model's OOD behavior. We evaluate several learning algorithms under BEDS-Bench and find that all of them show poor generalization performance under distributional shift in general. Our results highlight the need and the potential to improve robustness of EHR models under distributional shift, and BEDS-Bench provides one way to measure progress towards that goal.


翻译:最近,大多数ML模型在广泛任务中的预测准确性方面取得了令人印象深刻的进展。多数ML方法侧重于对与培训数据相似的(分布式或IND)的隐蔽数据的概括性表现。然而,真实世界应用和部署ML很少享受到总是 IND 的发现实例的舒适。在这种情况下,大多数ML模型通常显示在分配外(OOD)方面的行为变化不定,例如高度信任错误预测,或相反。在保健环境中,这种不寻常的模型行为的影响进一步加剧,病人健康有可能受到威胁。研究分布式转换中的模型的行为和稳健性特性至关重要,了解共同失败模式,并在模型部署之前采取缓解步骤。在模型的这些方面亮亮亮光是解决这一问题的第一步和必要步骤。最近的工作和兴趣在ODA模型中加强模型的稳健性,我们所有健康记录(EHR)模式的影响仍然严重不足。我们的目标是,在ODRDA模型下,通过在ODA标准下,将ODA标准中的关键性表现和ODA标准下,在ODA标准下,在ODA标准下,我们一般数据标准标准标准下,在ODDDDA标准下,在ODA标准标准下,需要一种标准下,在ODADDDDDD标准下,一个标准下,一个标准下,一个标准标准下,在标准下,一个标准下,一个基本数据标准标准标准标准标准,一个标准,一个标准,一个标准,一个标准,一个标准在标准,一个标准,一个标准,在ODRDBEBEBDDDDSDDDDDBDSDADBBDBDSDSDBDBDBDBDDBD标准下,一个标准下,在两个标准下,一个标准下,一个标准下,一个标准下,在两个标准下,一个标准下,一个标准下,一个标准下,一个标准下,一个标准标准,它显示它显示其基准下,一个标准。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
35+阅读 · 2021年7月7日
专知会员服务
39+阅读 · 2020年9月6日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
已删除
将门创投
4+阅读 · 2019年6月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
38+阅读 · 2021年8月31日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2021年7月7日
专知会员服务
39+阅读 · 2020年9月6日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
4+阅读 · 2019年6月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员