在基因组学研究中,通常会进行成千上万次的统计假设检验,以识别受疾病因果影响的基因。近年来,单细胞RNA测序和CRISPR技术的进展使得基因表达可以被高分辨率地测量。然而,这些数据往往是稀疏的、过度离散的,并且具有异质性,这对多个因果效应的可靠推断带来了重大挑战。 本论文提出了三种互补的解决方案: (1) GCATE 是一个统一的建模框架,适用于具有潜在混杂因素的广义线性模型。通过利用正交结构与线性投影,GCATE 能够在非线性模型下一致地估计和推断直接效应。在样本量和响应变量维度同时趋于无穷的高维情形下,我们推导了渐近 z 检验的一类错误控制,并实证展示了Benjamini-Hochberg程序的虚假发现率控制能力。通过比较两个样本组的单细胞RNA-seq 计数,验证了当显著协变量缺失时调整混杂效应的适用性。 (2) causarray 将来自 GCATE 的混杂因子估计与一个用于多个导出结果的半参数框架相结合。该方法超越了平均处理效应的估计,支持稳健因果估计量,并允许利用机器学习进行灵活建模。由此构建的双重稳健推理流程可以维持 FDR 或 FDX 控制。在自闭症风险基因的 in vivo Perturb-seq 筛选实验和三个阿尔茨海默症转录组数据集上的应用表明,该方法揭示了与疾病相关的神经通路聚类结构。 (3) PII 提供了一种假设依赖性较低的后整合推断方法,利用负控制结果调整潜在异质性。所得的双重稳健估计量在较弱条件下实现一致性与高效性,使得在整合机器学习后可进行数据自适应的因果推断。我们通过随机森林仿真评估其经验性能,并进一步在具有潜在未观测混杂因素的单细胞CRISPR数据集中进行了验证。 总体而言,这些方法构成了一套严谨的因果推理工具包,适用于复杂的基因组环境,能够应对非高斯性、异质性、高维性和未观测混杂问题,从而实现与疾病相关基因和通路的可靠发现。

成为VIP会员查看完整内容
3

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】小型和大型模型的不确定性估计
专知会员服务
16+阅读 · 7月11日
【NUS博士论文】视频语义理解的因果模型
专知会员服务
9+阅读 · 3月19日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
34+阅读 · 2024年10月30日
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
41+阅读 · 2022年11月7日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 多内容实体和关系联合抽取的对抗训练
开放知识图谱
42+阅读 · 2018年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员