在基因组研究中,通常会进行成千上万次的统计假设检验,以识别与疾病相关的因果基因。最近,单细胞RNA测序和CRISPR技术的进展使得基因表达能够以高分辨率进行测量。然而,这些数据通常是稀疏的、过度离散的且具有异质性,这为多个因果效应的可靠推断带来了重大挑战。本论文提出了三种互补的解决方案: (1) GCATE 是一种统一的基于模型的框架,用于具有潜在混杂因素的广义线性模型。通过利用正交结构和线性投影,GCATE 使得在非线性模型下对直接效应进行一致性估计和推断成为可能。在样本量和响应量都接近无穷大的高维情境下,我们推导出了渐近z检验的I型误差控制,并通过Benjamini-Hochberg方法在经验上演示了假发现率(FDR)的控制。通过比较来自两组样本的单细胞RNA测序计数,我们展示了在模型中缺乏显著协变量时,调整混杂效应的适用性。
(2) causarray 将GCATE中的混杂因素估计与多重衍生结果的半参数框架结合起来。该方法不仅扩展了平均处理效应,还能够提供稳健的因果估计,并允许使用机器学习进行灵活估计,所得到的双重稳健管道保持假发现率(FDR)或假发现扩展(FDX)控制。应用于自闭症风险基因的体内Perturb-seq筛选和三种阿尔茨海默病转录组数据集,揭示了与疾病相关的神经通路聚类。 (3) Pii 利用负控制结果调整潜在的异质性,提供假设最小的后集成推断。所得到的双重稳健估计量在弱条件下实现了一致性和效率,使得在与机器学习数据自适应估计集成后能够进行推断。通过随机森林的模拟评估了经验性能,并进一步在具有潜在未测量混杂因素的单细胞CRISPR数据集上进行演示。 这三种方法共同形成了一套系统的因果推断工具,能够应对非高斯性、异质性、高维性和未测量的混杂问题,并支持可靠地发现与疾病相关的基因和通路。