Even the most carefully curated economic data sets have variables that are noisy, missing, discretized, or privatized. The standard workflow for empirical research involves data cleaning followed by data analysis that typically ignores the bias and variance consequences of data cleaning. We formulate a semiparametric model for causal inference with corrupted data to encompass both data cleaning and data analysis. We propose a new end-to-end procedure for data cleaning, estimation, and inference with data cleaning-adjusted confidence intervals. We prove consistency, Gaussian approximation, and semiparametric efficiency for our estimator of the causal parameter by finite sample arguments. The rate of Gaussian approximation is $n^{-1/2}$ for global parameters such as average treatment effect, and it degrades gracefully for local parameters such as heterogeneous treatment effect for a specific demographic. Our key assumption is that the true covariates are approximately low rank. In our analysis, we provide nonasymptotic theoretical contributions to matrix completion, statistical learning, and semiparametric statistics. We verify the coverage of the data cleaning-adjusted confidence intervals in simulations calibrated to resemble differential privacy as implemented in the 2020 US Census.


翻译:经验性研究的标准工作流程涉及数据清理,然后进行数据分析,通常忽视数据清理的偏差和差异后果。我们制定了对腐败数据进行因果关系推断的半参数模型,既包括数据清理,也包括数据分析。我们提出了数据清理、估算和数据清理调整信任间隔的端对端新程序。我们用限定抽样参数对因果参数的估测员证明了一致性、高斯近距离和半参数效率。对于平均治疗效果等全球参数而言,高斯近差率为$ ⁇ -1/2美元,对本地参数(如特定人口的不同治疗效果)的优度也有所降低。我们的主要假设是,真实的共变数的等级大约较低。我们的分析为矩阵完成、统计学习和半对称统计统计统计提供了不附带的理论贡献。我们核查了根据2020年美国人口普查所实施的与差异隐私相校准的模拟中数据清理调整信任间隔的覆盖面。

0
下载
关闭预览

相关内容

因果推断,Causal Inference:The Mixtape
专知会员服务
105+阅读 · 2021年8月27日
如何撰写好你的博士论文?CMU-Priya博士这30页ppt为你指点
专知会员服务
56+阅读 · 2020年10月30日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
ERROR: GLEW initalization error: Missing GL version
深度强化学习实验室
9+阅读 · 2018年6月13日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
ERROR: GLEW initalization error: Missing GL version
深度强化学习实验室
9+阅读 · 2018年6月13日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员