现代生物医学数据集——从基因表达的分子测量到病理图像——为发现新的治疗方法和探索有关细胞行为的基本问题提供了希望。对这些复杂的高维数据进行深思熟虑的统计建模,对于阐明可靠的科学发现至关重要。数据分析中一个常见的假设是数据样本是独立同分布的。然而,这个假设在实践中几乎总是被违背。在生物医学数据的设置中尤其如此,生物医学数据通常表现出一定的结构,例如患者的亚群、细胞或组织类型或样本之间的其他相关结构。
在这项工作中,我提出了数据分析和实验设计框架,以解释几种类型的高度结构化生物医学数据。这些方法采用贝叶斯模型和相关推理算法的形式,是专门为具有组结构、多种数据模态和样本空间组织的数据集量身定制的。在第一行工作中,我提出了一个对比降维模型,该模型分解了属于案例和控制条件的样本的变异源。其次,提出了一种计算框架,用于将空间分辨的基因组数据对齐到一个共同的坐标系中,该坐标系考虑了样本之间的空间相关性,并对多种数据模态进行建模。最后,我提出了一系列方法,用于优化设计空间分辨基因组学实验,这些方法是为这些研究的高度结构化数据收集过程量身定制的。通过开发直接利用这些数据中常见结构类型的模型,并展示这些建模方法在各种数据类型中的优势,这些工作推进了生物医学数据分析领域。 https://dataspace.princeton.edu/handle/88435/dsp01bn9999982