在基因组研究中,通常会进行成千上万次的统计假设检验,以识别与疾病相关的因果基因。最近,单细胞RNA测序和CRISPR技术的进展使得基因表达能够以高分辨率进行测量。然而,这些数据通常是稀疏的、过度离散的且具有异质性,这为多个因果效应的可靠推断带来了重大挑战。本论文提出了三种互补的解决方案: (1) GCATE 是一种统一的基于模型的框架,用于具有潜在混杂因素的广义线性模型。通过利用正交结构和线性投影,GCATE 使得在非线性模型下对直接效应进行一致性估计和推断成为可能。在样本量和响应量都接近无穷大的高维情境下,我们推导出了渐近z检验的I型误差控制,并通过Benjamini-Hochberg方法在经验上演示了假发现率(FDR)的控制。通过比较来自两组样本的单细胞RNA测序计数,我们展示了在模型中缺乏显著协变量时,调整混杂效应的适用性。

(2) causarray 将GCATE中的混杂因素估计与多重衍生结果的半参数框架结合起来。该方法不仅扩展了平均处理效应,还能够提供稳健的因果估计,并允许使用机器学习进行灵活估计,所得到的双重稳健管道保持假发现率(FDR)或假发现扩展(FDX)控制。应用于自闭症风险基因的体内Perturb-seq筛选和三种阿尔茨海默病转录组数据集,揭示了与疾病相关的神经通路聚类。 (3) Pii 利用负控制结果调整潜在的异质性,提供假设最小的后集成推断。所得到的双重稳健估计量在弱条件下实现了一致性和效率,使得在与机器学习数据自适应估计集成后能够进行推断。通过随机森林的模拟评估了经验性能,并进一步在具有潜在未测量混杂因素的单细胞CRISPR数据集上进行演示。 这三种方法共同形成了一套系统的因果推断工具,能够应对非高斯性、异质性、高维性和未测量的混杂问题,并支持可靠地发现与疾病相关的基因和通路。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】小型和大型模型的不确定性估计
专知会员服务
10+阅读 · 7月11日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
34+阅读 · 2024年10月30日
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
41+阅读 · 2022年11月7日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 多内容实体和关系联合抽取的对抗训练
开放知识图谱
42+阅读 · 2018年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
171+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员