Although deep learning models have driven state-of-the-art performance on a wide array of tasks, they are prone to learning spurious correlations that should not be learned as predictive clues. To mitigate this problem, we propose a causality-based training framework to reduce the spurious correlations caused by observable confounders. We give theoretical analysis on the underlying general Structural Causal Model (SCM) and propose to perform Maximum Likelihood Estimation (MLE) on the interventional distribution instead of the observational distribution, namely Counterfactual Maximum Likelihood Estimation (CMLE). As the interventional distribution, in general, is hidden from the observational data, we then derive two different upper bounds of the expected negative log-likelihood and propose two general algorithms, Implicit CMLE and Explicit CMLE, for causal predictions of deep learning models using observational data. We conduct experiments on two real-world tasks: Natural Language Inference (NLI) and Image Captioning. The results show that CMLE methods outperform the regular MLE method in terms of out-of-domain generalization performance and reducing spurious correlations, while maintaining comparable performance on the regular evaluations.


翻译:尽管深层次的学习模式推动了一系列广泛任务的最先进的表现,但它们容易学习不应作为预测线索学习的虚假关联。为了减轻这一问题,我们提议了一个基于因果关系的培训框架,以减少可见的困惑者造成的虚假关联。我们对基本的一般结构原因模型(SCM)进行理论分析,并提议进行关于干预分布而不是观察分布的“最大相似性估计”(MLE),即“反现实最大相似性估计”(CMLE)的实验。由于干预分布一般来自观测数据,我们随后从预期的负日志相似性中得出两个不同的上方,并提出两种一般算法,即“隐含 CMLE”和“扩展 CMLE”,以利用观测数据对深层学习模型进行因果关系预测。我们实验了两种真实世界性任务:自然语言推断(NLI)和图像定位。结果显示,CLE方法在正常性业绩评估中比正常性相关性要低,同时减少定期性业绩对比。

0
下载
关闭预览

相关内容

在统计学中,最大似然估计(maximum likelihood estimation, MLE)是通过最大化似然函数估计概率分布参数的一种方法,使观测数据在假设的统计模型下最有可能。参数空间中使似然函数最大化的点称为最大似然估计。最大似然逻辑既直观又灵活,因此该方法已成为统计推断的主要手段。
【图与几何深度学习】Graph and geometric deep learning,49页ppt
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
5+阅读 · 2020年3月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年7月29日
Arxiv
0+阅读 · 2021年7月28日
Deep Anomaly Detection with Outlier Exposure
Arxiv
17+阅读 · 2018年12月21日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2020年3月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员