机器学习(ML)已广泛应用于生物医学和医疗健康领域。医学数据的日益丰富和生物技术(如新一代测序)的发展为ML在计算生物学和健康领域的应用提供了巨大的机会。在这篇论文中,我展示了我在这一新兴领域的三个方面的贡献——使用大规模数据集来推进医学研究,开发算法来解决生物挑战,以及为新技术构建分析工具。
在第一部分中,我介绍了两件将ML应用于大规模现实数据的作品:一件用于临床试验设计,一件用于精准医疗。过于严格的入选标准一直是临床试验的一个关键障碍。在论文中,我介绍了一个强大的计算框架,Trial Pathfinder,它支持临床试验的包容性标准和数据评估。精准医疗的一个关键目标是描述具有特定基因突变的患者对治疗的反应。在本文中,我利用大型真实世界临床基因组学数据对突变-治疗交互作用进行了系统性泛癌症分析。
在第二部分中,我将介绍我在开发解决生物挑战的算法方面的工作——将多个数据集与子集对应信息对齐。在许多生物和医学应用中,我们有来自不同来源或领域的多个相关数据集,学习这些数据集之间的高效计算映射是一个重要的问题。在论文中,我提出了一个端到端的最佳传输框架,它有效地利用端信息来对齐数据集。
最后,我介绍了我为新技术开发分析工具的工作——空间转录组学和RNA速度。近年来,基于高通量图像的转录组学方法的发展,首次使研究人员能够在分子水平上对基因表达变异进行空间解析。在论文中,我描述了一个通用的分析工具来定量研究基因表达在固定组织切片中的空间相关性。从单细胞RNA-seq推断RNA速度的最新进展为发育谱系和细胞动力学打开了令人兴奋的新视野。在论文中,我介绍了一个有原则的计算框架,扩展RNA速度,以量化系统水平的动力学和改进单细胞数据分析。