【CMU博士论文】迈向具有高维结果的可靠且稳健的因果推断

在基因组研究中，通常会进行成千上万次的统计假设检验，以识别与疾病相关的因果基因。最近，单细胞RNA测序和CRISPR技术的进展使得基因表达能够以高分辨率进行测量。然而，这些数据通常是稀疏的、过度离散的且具有异质性，这为多个因果效应的可靠推断带来了重大挑战。本论文提出了三种互补的解决方案： (1) GCATE 是一种统一的基于模型的框架，用于具有潜在混杂因素的广义线性模型。通过利用正交结构和线性投影，GCATE 使得在非线性模型下对直接效应进行一致性估计和推断成为可能。在样本量和响应量都接近无穷大的高维情境下，我们推导出了渐近z检验的I型误差控制，并通过Benjamini-Hochberg方法在经验上演示了假发现率（FDR）的控制。通过比较来自两组样本的单细胞RNA测序计数，我们展示了在模型中缺乏显著协变量时，调整混杂效应的适用性。

(2) causarray 将GCATE中的混杂因素估计与多重衍生结果的半参数框架结合起来。该方法不仅扩展了平均处理效应，还能够提供稳健的因果估计，并允许使用机器学习进行灵活估计，所得到的双重稳健管道保持假发现率（FDR）或假发现扩展（FDX）控制。应用于自闭症风险基因的体内Perturb-seq筛选和三种阿尔茨海默病转录组数据集，揭示了与疾病相关的神经通路聚类。 (3) Pii 利用负控制结果调整潜在的异质性，提供假设最小的后集成推断。所得到的双重稳健估计量在弱条件下实现了一致性和效率，使得在与机器学习数据自适应估计集成后能够进行推断。通过随机森林的模拟评估了经验性能，并进一步在具有潜在未测量混杂因素的单细胞CRISPR数据集上进行演示。这三种方法共同形成了一套系统的因果推断工具，能够应对非高斯性、异质性、高维性和未测量的混杂问题，并支持可靠地发现与疾病相关的基因和通路。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】小型和大型模型的不确定性估计

专知会员服务

10+阅读 · 7月11日

【HKUST博士论文】迈向可扩展且具泛化能力的时空预测

专知会员服务

16+阅读 · 6月27日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

30+阅读 · 4月21日

【博士论文】通过新算法与技术实现快速、准确、高效的实时基因组分析

专知会员服务

11+阅读 · 3月13日