深度生成模型已经彻底改变了人工智能领域,从根本上改变了我们如何生成模仿或从训练数据推广出的新颖对象,以及我们访问和消费各类信息(如文本、图像、语音和计算机程序)的方式。它们有潜力彻底改变其他科学领域,从数学问题解决到支持高能物理中快速而准确的模拟,或是使快速天气预报成为可能。在计算生物学中,生成模型对于改进我们对复杂生物过程的理解、设计新药物和治疗方法、以及预测大流行期间病毒的进化等方面,都拥有巨大的潜力,而这只是众多应用中的一部分。然而,由于生物对象的固有复杂性,它们带来了独特的挑战,包括庞大的空间、多种补充数据模式,以及高度结构化和相对非结构化组件之间的独特相互作用。
在这篇论文中,我们开发了几种由计算生物学中关键问题所驱动的深度生成建模框架。鉴于这一努力的跨学科性质,我们首先提供了关于生成建模、不确定性量化、顺序决策制定,以及生物学和化学中重要概念的全面背景,以便彻底理解我们的工作。接着,我们深入探讨我们贡献的核心,围绕三个章节进行构建。第一章介绍了学习生物序列表示的方法,为后续分析打下了基础。第二章展示了如何利用这些表示来预测生物分子的复杂属性,重点关注三个具体应用:蛋白质适应性预测、遗传变异对人类疾病风险的影响,以及病毒免疫逃逸。最后,第三章致力于设计新型生物分子的方法,包括药物靶点识别、从头分子优化和蛋白质工程。
这篇论文还对更广泛的机器学习挑战,如高维空间中的不确定性量化或高效的变换器架构,作出了几个方法论贡献,这些贡献在其他应用领域也具有潜在价值。我们最后通过总结我们的主要发现,强调当前方法的不足,提出未来研究的可能途径,并讨论该领域内的新兴趋势来结束这篇论文。