【导读】ICML(International Conference on Machine Learning),即国际机器学习大会, 是机器学习领域全球最具影响力的学术会议之一,因此在该会议上发表论文的研究者也会备受关注。因疫情的影响, 今年第37届ICML大会已于2020年7月13日至18日在线上举行。据官方统计,ICML 2020共提交4990篇论文,接收论文1088篇,接收率为21.8%。与往年相比,接收率逐年走低。小编发现基于因果推理(Causal Inference)相关的paper很多,因果推理,以及反事实等相关理论方法在CV、NLP都开始有相关的应用了,这个前沿的方法受到了很多人的关注。
为此,这期小编继续为大家奉上ICML 2020必读的六篇因果推理(Causal Inference)相关论文——隐私攻击、因果效应估计、分层贝叶斯模型、反事实交叉验证、协变量表示
ICML 2020 Accepted Paper: https://proceedings.icml.cc/book/2020
ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、
1、Alleviating Privacy Attacks via Causal Learning
作者:Shruti Tople, Amit Sharma, Aditya V. Nori
摘要:机器学习模型,特别是深度神经网络,已经被证明容易受到隐私攻击,例如成员关系推理(membership inference),在这种情况下,对手可以检测到数据点是否被用于训练黑盒模型。当模型用于预测不可知数据分布时,这样的隐私风险就会加剧。为了减轻隐私攻击,我们展示了基于输入特征和结果之间因果关系预测模型的好处。我们首先表明,使用因果结构学习的模型可以更好地推广到不可知数据(unseen data),特别是在与训练分布具有不同分布的数据上。基于这一性质,我们建立了因果关系和隐私之间的理论联系:与关联模型相比,因果模型提供了更强的区分隐私保证,并且对成员关系推理攻击具有更强的鲁棒性。在模拟的Bayesian networks和colored-MNIST数据集上的实验表明,在不同的测试分布和样本大小情况下,关联模型的攻击准确率高达80%,而因果模型的攻击准确率接近随机猜测。
网址: https://proceedings.icml.cc/paper/2020/file/4a11654ad1e1e48352252859ff3032a0-Paper.pdf
2、Causal Effect Estimation and Optimal Dose Suggestions in Mobile Health International Conference on Machine Learning
作者:Liangyu Zhu, Wenbin Lu, Rui Song
摘要:在这篇文章中,我们提出了新的结构性嵌套模型(nested models)来估计基于移动健康数据的持续治疗的因果效应(causal effects)。为了找到优化患者预期短期结果的治疗方案,我们将加权lag-K advantage定义为价值函数。然后将最优干预方案为使价值函数最大化的方案。我们的方法对数据生成过程施加了最小的假设。对估计的参数进行统计推断。模拟研究和在Ohio type 1 diabetes 数据集的应用表明,我们的方法可以为移动健康数据的剂量建议提供有意义的见解。
网址: https://proceedings.icml.cc/paper/2020/file/286674e3082feb7e5afb92777e48821f-Paper.pdf
3、Causal Inference using Gaussian Processes with Structured Latent Confounders
作者:Sam Witty, Kenta Takatsu, David Jensen, Vikash Mansinghka
摘要:潜在干扰因子(confounders)-影响介入选择和结果的一些未观察到的变量-可能会对因果效应的估计产生偏差。在某些情况下,这些干扰因子在不同的观察中是相同的,例如,一所学校的所有学生除了单独接受任何教育的干预外,还受到学校文化的影响。本文展示了如何对具有这种结构的潜在干扰因子进行建模,从而改进对因果效应的估计。主要创新点是分层贝叶斯模型、带结构干扰因子的高斯过程(Gaussian processes with structured latent confounders, GP-SLC)和基于椭圆切片采样(elliptical slice sampling)的蒙特卡罗推理(Monte Carlo inference)算法。GP-SLC提供个体治疗效果的原则性贝叶斯不确定性估计,对与干扰因子、协变量、介入和结果相关的函数形式的假设最少。本文还证明,对于线性函数形式,考虑潜在干扰因子中的结构对于因果效应的渐近相容估计是充分的。最后,本文证明了GP-SLC与等级线性模型( multi-level linear models)和贝叶斯加性回归树(Bayesian additive regression trees)等广泛使用的因果推理技术相比具有竞争力或更高的精确度。基准数据集包括 Infant Health 和Development Program ,以及显示温度变化对整个新英格兰全州能源消耗的影响的数据集。
网址: https://proceedings.icml.cc/paper/2020/file/56bd37d3a2fda0f2f41925019c81011d-Paper.pdf
4、Counterfactual Cross-Validation:Stable Model Selection Procedure for Causal Inference Models
作者:Yuta Saito, Shota Yasui
摘要:本文研究了conditional average treatment effect(CATE)预测中的模型选择问题。与以往的研究工作不同,我们的重点是保持候选CATE预测器性能的等级顺序,以便能够准确和稳定地选择模型。为此,我们分析了模型的性能排名问题,并制定了指导方针,以获得更好的评价指标。然后,我们提出了一种新的度量方法,它可以高置信度地识别CATE预测器的性能排名。实验评估表明,我们的度量方法在模型选择和超参数调整任务上都优于现有的度量方法。
网址: https://proceedings.icml.cc/paper/2020/file/dc6a70712a252123c40d2adba6a11d84-Paper.pdf
5、DeepMatch: Balancing Deep Covariate Representations for Causal Inference Using Adversarial Training
作者:Nathan Kallus
摘要:当丰富的协变量(covariates)和复杂的关系需要灵活的神经网络建模时,我们研究了从观测数据中进行因果推理时,如何平衡其协变量表示。在这种情况下,诸如倾向于加权和匹配/平衡之类的标准方法分别会因为未正确校正的倾向网络和不合适的协变量表示而失败。我们提出了一种基于权重和判别器网络的对抗训练的新方法,可以有效地解决这种方法上的差距。这是经过新的理论特征和基于合成与临床数据的经验结果证明的,这些结果表明在这种挑战性的环境中如何解决因果分析。
网址: https://proceedings.icml.cc/paper/2020/file/6e3197aae95c2ff8fcab35cb730f6a86-Paper.pdf
6、Efficient Identification in Linear Structural Causal Models with Auxiliary Cutsets
作者:Daniel Kumor, Carlos Cinelli, Elias Bareinboim
摘要:我们提出了一种新的多项式时间(polynomial-time)算法来识别线性因果模型中的结构系数,它包含了以前最先进的方法,统一了几种不同的识别方法。在这些结果的基础上,我们开发了一种识别线性系统中总因果效应的程序。
网址: https://proceedings.icml.cc/paper/2020/file/b635f9e3c038855c68c2704f08caeee1-Paper.pdf