Controlling false positives (Type I errors) through statistical hypothesis testing is a foundation of modern scientific data analysis. Existing causal structure discovery algorithms either do not provide Type I error control or cannot scale to the size of modern scientific datasets. We consider a variant of the causal discovery problem with two sets of nodes, where the only edges of interest form a bipartite causal subgraph between the sets. We develop Scalable Causal Structure Learning (SCSL), a method for causal structure discovery on bipartite subgraphs that provides Type I error control. SCSL recasts the discovery problem as a simultaneous hypothesis testing problem and uses discrete optimization over the set of possible confounders to obtain an upper bound on the test statistic for each edge. Semi-synthetic simulations demonstrate that SCSL scales to handle graphs with hundreds of nodes while maintaining error control and good power. We demonstrate the practical applicability of the method by applying it to a cancer dataset to reveal connections between somatic gene mutations and metastases to different tissues.


翻译:通过统计假设检验控制假阳性(第一类错误)是现代科学数据分析的基础。现有的因果结构发现算法要么无法提供第一类错误控制,要么难以扩展到现代科学数据集的规模。我们考虑因果发现问题的一个变体,其中包含两组节点,且唯一感兴趣的边构成两组节点之间的二分因果子图。我们开发了可扩展因果结构学习方法,这是一种针对二分子图因果结构发现的方法,能够提供第一类错误控制。该方法将发现问题重新构建为同步假设检验问题,并通过对可能混杂变量集合进行离散优化,为每条边获得检验统计量的上界。半合成仿真实验表明,SCSL能够扩展到处理包含数百个节点的图结构,同时保持错误控制能力和良好的检验功效。我们通过将该方法应用于癌症数据集,揭示了体细胞基因突变与不同组织转移之间的关联,从而证明了其实用价值。

0
下载
关闭预览

相关内容

【ICML2025】通用智能体需要世界模型
专知会员服务
22+阅读 · 6月4日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
29+阅读 · 2020年10月2日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICML2025】通用智能体需要世界模型
专知会员服务
22+阅读 · 6月4日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
29+阅读 · 2020年10月2日
相关资讯
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员