Nature Comm.综述：为什么深度学习可以在生命科学领域大放异彩

2022 年 4 月 30 日 机器之心

编辑 | 萝卜皮

深度学习 (DL) 最近在计算生物学的一项重大挑战中取得了前所未有的进展：半个世纪以来的蛋白质结构预测问题。

在这篇综述中，莱斯大学（Rice University）的研究人员讨论了深度学习在五个广泛领域的最新进展、局限性和未来前景：蛋白质结构预测、蛋白质功能预测、基因组工程、系统生物学和数据集成以及系统发育推断。

他们讨论了每个应用领域并涵盖了 DL 方法的主要瓶颈，例如训练数据、问题范围以及在新环境中利用现有 DL 架构的能力。最后，总结了 DL 在整个生物科学领域面临的特定主题和一般挑战。

该综述以「Current progress and open challenges for applying deep learning across the biosciences」为题，于 2022 年 4 月 1 日发布在《Nature Communications》。

AlphaFold2 最近在从蛋白质序列中预测蛋白质的 3D 结构方面取得了成功，这突出了迄今为止深度学习在计算生物学中最有效的应用之一。深度学习（DL）允许使用由多层非线性计算单元组成的复杂模型来查找具有多层抽象的数据表示（图 1）。通过深度学习在广泛的应用领域中的成功观察到，使用深度学习的功效取决于开发专门的神经网络架构，该架构可以捕获数据的重要属性，例如空间局部性（卷积神经网络 - CNN）、序列性质（循环神经网络 – RNN）、上下文依赖（Transformers）和数据分布（自动编码器 – AE）。

图 1 展示了在计算生物学领域中应用最多的六种深度学习架构。该综述的着力点主要是在计算生物学应用方面；如果希望了解更多对 DL 方法和架构的完整评论，研究人员建议读者阅读 LeCun 团队的论文。

LeCun 团队论文：https://www.nature.com/articles/nature14539

这些 DL 模型彻底改变了语音识别、视觉对象识别和对象检测，并且最近在解决计算生物学中的重要问题方面发挥了关键作用。深度学习在计算生物学的其他领域（例如功能生物学）的应用正在增长，而其他领域（例如系统发育学）则处于起步阶段。

鉴于计算生物学不同领域 DL 的接受度之间存在巨大差异，一些关键问题仍未得到解答：

（1）是什么让一个领域成为 DL 方法的首选？

（2）DL 在计算生物学应用中的潜在局限性是什么？

（3）哪种 DL 模型最适合计算生物学的特定应用领域？

图 1：机器学习场景和常用 DL 架构的概述。

该综述中，研究人员旨在从计算生物学的角度解决这些基本问题。然而，答案是高度特定于任务的，只能在相应应用程序的上下文中解决。Whalen 团队已经讨论了在基因组学中应用机器学习（ML）的缺陷，但该综述的目标是提供关于 DL 在五个不同领域的影响的观点。虽然 DL 在生物科学领域取得了显着的成功（例如 DeepVariant、DeepArg、宏基因组分箱和原产地归属实验室），但该综述的目标是只关注一些多样化和广泛的子主题。

研究人员评估了 DL 在计算生物学中对经典 ML 技术的改进，迄今为止取得了不同程度的成功（图 2）。

对于每个领域，探讨了当前方法的局限性和改进机会，并包括实用技巧。他们围绕计算生物学中五个广泛而不同的领域展开讨论：蛋白质结构预测、蛋白质功能预测、基因组工程、系统生物学和数据集成以及系统发育推断（表 1）。

这些领域提供了一系列影响水平，从主要范式转变（AlphaFold2）到处于起步阶段的 DL 应用（系统发育推断）；总体来说，它们提供了足够丰富的技术多样性来解决从这个角度提出的问题。

研究人员主要回顾了四个计算生物学主题的进展，

（i）范式转换（其中 DL 明显优于其他 ML 和经典方法，并提供了广泛的影响）排序；

（ii）重大成功（DL性能通常高于其他ML和经典方法）；

（iii）中度成功（DL性能通常与其他ML和经典方法相当）；

（iv）轻微成功（DL方法未被广泛采用或与其他ML和经典方法相比表现不佳）；

最后，讨论了生物科学中DL面临的常见挑战。

图 2：主要标记和未标记数据集的摘要视图，以及计算生物学深度学习方法中使用的架构。

DL 的范式转变成功

蛋白质结构预测

蛋白质结构预测可以说是深度学习在计算生物学中最成功的应用之一；这种成功就是范式转变。众所周知，蛋白质的氨基酸序列决定了其 3D 结构，而这又与其功能直接相关（例如化学反应催化、信号转导、支架等）。

蛋白质结构预测问题的历史可以追溯到 1950 年代 John Kendrew 对肌红蛋白 3D 结构的测定，这是生物化学和结构生物学的里程碑。从那时起，X 射线晶体学已成为蛋白质结构测定的金标准实验方法，以及验证蛋白质结构预测计算模型的参考。

考虑到 X 射线晶体学的高成本和技术限制，以及人类基因组计划之后对生物序列的日益普及，从蛋白质序列预测蛋白质的 3D 结构成为计算生物学中的珠穆朗玛峰；一个被广泛称为「蛋白质折叠问题」的挑战。最初的努力集中在使用生物物理精确的能量函数和基于知识的统计推理，但最近取得了更快的进展，更加关注深度学习。

DL 最近在该领域取得成功的关键原因之一，是多序列比对 (MSA) 形式的大量无监督数据，这使得学习蛋白质的非线性进化信息表示成为可能。

AlphaFold2 对结构生物学领域的影响是不可否认的；它成功地展示了使用基于 DL 的实现来进行高精度蛋白质结构预测。正如大量早期引用所强调的那样，这一成就已经在推动和加速该领域的进一步发展。

此外，DeepMind 还与欧洲分子生物学实验室（EMBL）合作创建了一个以 AlphaFold2 为模型的开放式蛋白质结构数据库。该数据库已经涵盖了 98.5% 的人类蛋白质，其中至少 36% 的氨基酸残基被高可信度预测。

最后，基于 DL 的方法不会淘汰实验方法，而是可以提高实验方法的准确性和范围，如初步应用通过 X 射线晶体学和冷冻电镜数据解决具有挑战性的结构所证明的那样。然而，许多警告、限制和悬而未决的问题仍然存在。特别是，虽然 AlphaFold2 成功地预测了蛋白质的静态结构，但有关蛋白质生物学功能的许多关键见解都来自其动态构象。此外，多种蛋白质相互作用的动力学仍然在该领域提出了开放的挑战。展望未来，监测深度学习在这些后续研究领域的应用将很重要。

DL的主要成就

蛋白质功能预测

预测蛋白质功能是蛋白质结构预测之后自然而然的下一步。蛋白质功能预测涉及将目标蛋白质映射到策划的本体，例如基因本体（GO）术语、生物过程（BP）、分子功能（MF）和细胞成分（CC)。

蛋白质结构可以传达很多关于这些本体的信息，但是，两者之间没有直接的映射关系，而且映射通常非常复杂。

尽管 UniProtKB 数据库中可用的蛋白质序列大幅增长，但绝大多数蛋白质的功能注释仍然部分或完全未知。有限且不平衡的训练示例、可能函数的大输出空间以及 GO 标签的层次性是与蛋白质功能注释相关的一些主要瓶颈。

为了克服一些问题，最近的研究方法利用了来自不同来源的特征，包括序列、结构、交互网络、科学文献、同源性、领域信息，甚至结合了一种或多种 DL 架构来处理不同阶段的预测任务（例如特征表示、特征选择和分类）。

作为解决该问题的最成功的深度学习方法之一，DeepGO 结合了 CNN 来学习序列级嵌入，并将其与从蛋白质-蛋白质相互作用（PPI）网络中获得的每种蛋白质的知识图嵌入相结合。DeepGO 是首批基于 DL 的模型之一，在三个 GO 类别的功能注释任务上表现优于 BLAST 和以前的方法。

与 CAFA3 挑战赛中三个 GO 类别的其他工具相比，DeepGOPlus 是该工具的改进版本，成为表现最好的工具之一。DeepGOPlus 使用不同大小的卷积滤波器和单独的最大池来学习嵌入在 one-hot 编码方案中的蛋白质序列的密集特征表示。研究表明，将 CNN 的输出与 DIAMOND 的基于同源性的预测相结合可以提高预测准确性。

诸如 DAE 之类的无监督方法也有助于学习蛋白质的密集、稳健和低维表示。Chicco 团队开发了一个 DAE 来表示用于分配缺失 GO 注释的蛋白质，并且与非 DL 方法相比，在六个不同的 GO 数据集上显示了 6% 到 36% 的改进。Miranda 和 Hu 团队引入了 Stacked Denoising Autoencoders (sdAE) 来学习更稳健的蛋白质表示。Gilgorijevic 团队介绍了使用多模态 DAE (MDA) 从多个异构交互网络中提取特征的 deepNF，其性能优于基于矩阵分解和线性回归的方法。学习蛋白质低维嵌入的方法不断发展。

除了预测基因本体标签外，研究还集中在其他几个特定于任务的功能类别，例如识别特定的酶功能和潜在的翻译后修饰位点。这些研究是朝着开发具有特殊功能的新型蛋白质或修改现有蛋白质的功效迈出的基本步骤，如 DL 在酶工程中的最新进展所示。展望未来，深度学习在针对特定功能定制的工程蛋白质中的应用可以帮助提高候选蛋白质在其他领域的药物应用的吞吐量。

除了这些规范的体系结构之外，还有其他方法使用了上述方法的组合进行功能分类。总体而言，先前的结果表明，集成多模态数据类型特征的模型更有可能胜过依赖单一数据类型的模型。

来自文献的趋势表明，依赖特定于任务的架构可以帮助极大地增强各自数据类型的特征表示。在这个方向上的未来工作可能集中在将 DAE 和 RNN 结合起来用于基于序列的表示，以及将图卷积网络（GCN）用于基于结构和基于 PPI 的信息。将这些表示在分层分类器（例如多任务 DNN）中与生物学相关的正则化方法相结合，可以为蛋白质功能预测提供可解释且计算上可行的 DL 架构。

基因组工程

生物医学工程，特别是基因组工程，是生物学中的一个重要领域，其中 DL 模型已被越来越多地采用。

DL 的未来面向新的编辑技术，例如 CRISPR-Cas12a（cpf1）、碱基编辑器和主编辑器。虽然这些方法没有引入 DSB，但它们的效率仍在提高；事实上，DL 已经在预测人类细胞中腺嘌呤碱基编辑器（ABE）和胞嘧啶碱基编辑器（CBE）以及主要编辑器 2（PE2）活动的效率方面显示出了希望。

然而，未来的挑战在于理解这些模型。CRISPRLand 是一个最近的框架，它在高阶交互方面向 DL 模型的解释和可视化迈出了第一步。除了可解释性之外，研究人员推测能够对预测结果进行不确定性估计的方法在基因组编辑中变得更加普遍。

此外，由于细胞类型对 CRISPR 实验效率的显着影响，了解在基因组工程中部署 DL 模型的分布变化至关重要。整合域适应方法以限制这种分布变化的影响是其他重要的未来方向之一。

深度学习的中等成功

系统生物学和数据集成

系统生物学从整体角度对复杂的生物过程进行建模，以最终解开基因型和表型之间的联系。不同组学数据的整合是弥合这一差距的核心，可实现强大的预测模型，这些模型已导致最近的几项突破，从基础生物学到精准医学。

DL 的小成功

系统发育学

系统发育是一棵进化树，它模拟了一组分类群的进化历史。系统发育推断问题涉及从正在研究的分类群中获得的数据（通常是分子序列）构建系统发育。

图 3：系统发育推断的标准和深度学习方法。

目前 DL 在系统发育树方面取得的成功令人印象深刻，但考虑到各种挑战，很难设想一个端到端的深度学习模型在不久的将来从原始数据直接估计系统发育树。如果要开发一个，考虑到它依赖（可能是模拟的）训练数据，在取代传统的系统发育方法之前，它对实际生物序列的适用性需要仔细验证。

DL 在生物科学中的一般挑战

并非深度学习的所有应用在计算生物学中都同样成功。虽然在蛋白质结构预测和基因组编辑等某些领域，DL 取得了重大成功，但在系统发育推断等其他领域，DL 面临着重大障碍。DL 方法面临的最常见问题源于缺少注释数据、非模拟数据集固有的缺乏基本事实、训练数据分布和真实测试数据分布之间的严重差异、结果基准和解释中的潜在困难，以及最终克服数据集和模型中的偏见和道德问题。此外，随着数据和深度学习模型的增长，训练效率已成为进步的主要瓶颈。

具体来说，DL 在计算生物学不同子领域的成功高度依赖于标准化监督和非监督数据集的可用性和多样性、具有明显生物学影响的 ML 基准、问题的计算性质以及训练 DL 模型的软件工程基础设施。DL 在计算生物学中的剩余挑战与提高模型可解释性、提取可操作和人类可理解的见解、提高效率和限制培训成本以及最终缓解 DL 模型日益严重的伦理问题有关；深度学习和计算生物学社区正在出现创新的解决方案。

表：使用 DL 时通常面临计算生物学和潜在解决方案方面的挑战。

综述主要回顾了两个需要改进的关键领域：（i）可解释性和（ii）训练效率。

结论

总而言之，虽然 DL 在蛋白质结构预测等领域的成功正在发生范式转变，但与传统方法相比，功能预测、基因组工程和多组学等其他领域的性能也在快速提升。对于系统发育学等其他领域，经典计算方法似乎在这些领域占据上风。特定于 DL 的其他进展应用于生物科学的挑战，将进一步应用特定领域的生物学知识，同时努力提高可解释性和提高效率。

论文链接：https://www.nature.com/articles/s41467-022-29268-7

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

登录查看更多