Data fusion, the process of combining observational and experimental data, can enable the identification of causal effects that would otherwise remain non-identifiable. Although identification algorithms have been developed for specific scenarios, do-calculus remains the only general-purpose tool for causal data fusion, particularly when variables are present in some data sources but not others. However, approaches based on do-calculus may encounter computational challenges as the number of variables increases and the causal graph grows in complexity. Consequently, there exists a need to reduce the size of such models while preserving the essential features. For this purpose, we propose pruning (removing unnecessary variables) and clustering (combining variables) as preprocessing operations for causal data fusion. We generalize earlier results on a single data source and derive conditions for applying pruning and clustering in the case of multiple data sources. We give sufficient conditions for inferring the identifiability or non-identifiability of a causal effect in a larger graph based on a smaller graph and show how to obtain the corresponding identifying functional for identifiable causal effects. Examples from epidemiology and social science demonstrate the use of the results.


翻译:数据融合是指将观测数据与实验数据相结合的过程,它能够识别原本无法确定的因果效应。尽管已针对特定场景开发了识别算法,但do-演算仍然是因果数据融合中唯一的通用工具,特别是在某些变量仅存在于部分数据源的情况下。然而,基于do-演算的方法在变量数量增加、因果图复杂度提高时可能面临计算挑战。因此,需要在保持核心特征的前提下缩减此类模型的规模。为此,我们提出将剪枝(移除不必要变量)与聚类(合并变量)作为因果数据融合的预处理操作。我们推广了单数据源的早期研究成果,推导出在多数据源场景下应用剪枝与聚类的条件。我们给出了基于简化图推断原始图中因果效应可识别性与不可识别性的充分条件,并展示了如何为可识别的因果效应获取相应的识别函数式。流行病学与社会科学的实例验证了该成果的应用价值。

0
下载
关闭预览

相关内容

【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员