利用人工智能促进生物医学研究,是当前AI4Science热点。最新来自南京大学与清华大学的学者在“Briefings in Bioinformatics”的综述论文《深度学习蛋白质设计》综述,详细回顾了当前基于深度学习的蛋白质设计过程的主要进展,非常值得关注。
具有理想功能和特性的蛋白质在纳米技术和生物医学等领域非常重要。从头开始的蛋白质设计使以前从未见过的蛋白质从头开始生产成为可能,这被认为是处理现实社会挑战的关键。最近,深度学习被引入设计方法,展示了变革性的影响,并有望代表一个充满希望和令人兴奋的未来方向。在这篇综述中,我们回顾了当前基于深度学习的设计过程的主要进展,并通过明显的案例说明了它们与传统的基于知识的方法相比的新颖性。我们不仅描述了深度学习在基于结构的蛋白质设计和直接序列设计中的发展,而且强调了深度强化学习在蛋白质设计中的最新应用。对未来的设计目标、挑战和机遇进行了全面的探讨。
在我们复杂而奇妙的世界中,参与大多数生物化学反应的蛋白质,几十年来一直是基础科学研究以及医疗和工业应用的焦点。根据弗朗西斯·克里克在1958年阐明的基本生物学原理“中心法则”,蛋白质是生物体中低级系统信息的执行端,每个系统执行一种或几种特定的编码功能,这些功能依次共同定义相应的生物体。各种各样的天然蛋白质,如核蛋白、膜蛋白、血红蛋白、脂蛋白、热休克蛋白、收缩蛋白等,与人工机器相比表现出惊人的优良性能,包括极高的效率、操作的经济和精度、合成后的自组装等。蛋白质材料以其巨大的数量、卓越的质量和随之而来的多能性,为许多严重的社会挑战提供了可能的解决方案,引起了广泛的关注。
然而,由于工作环境的严格限制和相对较短的使用寿命,天然蛋白质无法满足人类激增的需求。此外,由于天然蛋白质是在大自然的选择压力下经过数百万年的进化而逐渐优化的,因此在原则上,它们不太可能在数百年内应对人类社会带来的挑战。因此,人造蛋白质修饰,甚至更进一步,从零开始设计全新的蛋白质应运而生。幸运的是,随着过去对蛋白质[1]的生物化学和生物物理研究的长期积累,蛋白质设计在技术上成为可能。在过去的十年中,通过蛋白质设计已经取得了许多令人印象深刻的成就,这强烈地影响和促进了学术界和工业界的合成生物学。在免疫信号传导[2,3]、靶向治疗[4,5]、感觉反应系统[6]、蛋白开关[7,8]、自组装材料[9,10]等未在此提及的领域的进展显示了利用蛋白质作为功能性和可再生材料的令人兴奋的潜力。此外,这些蛋白质设计上的突破也拓展了我们对蛋白质序列、结构和功能空间的探索和理解。以序列空间为例,由于所有的天然蛋白序列都起源于古代的一些偶然事件,并在偶然突变和定向选择压力下逐渐演化,因此它们不是均匀分散,而是以被称为蛋白质家族的喷洒簇的形式存在于序列空间中。在有限的时间尺度内,自然进化无法对位于广阔剩余空间的蛋白质序列的性质和功能进行采样,这就赋予了蛋白质设计的重要意义。
早期的蛋白质设计方法如定向进化[11,12]和随后的理性工程[13,14]主要着眼于模仿和/或加速自然进化过程。这些方法通过多轮的突变文库构建和高通量筛选,偶然获得了性能提高甚至功能新的蛋白[15-18]。然而,这些方法总是面临测定保真度和通量之间的权衡,更重要的是,它们的探索仍然局限于相应的初始天然蛋白。随着计算设备和算法的发展,计算机辅助蛋白质工程逐渐克服了上述不足,它避免了相对随机的突变策略,并根据蛋白质的生物物理和生化原理提供了一些明确的设计蓝图。在众多的计算机辅助蛋白质工程方法中,以生成自然界中不存在的新蛋白质为目标的蛋白质从头设计(de novo protein design)最受关注。凭借丰富的宝贵成果,de novo蛋白设计被《科学》杂志提名为2016年[19]年度十大突破之一。
基本上,蛋白质从头设计的任务是找到具有预期功能的新序列。然而,在实践中,在构建蛋白质序列和功能空间之间的直接映射方面存在一些障碍。例如,一个蛋白质序列编码的信息很难单独从目标序列中提取出来,因为它只是20种氨基酸残基的排列或组合。此外,不同的蛋白质功能几乎无法定量表达。由于蛋白质需要形成特定的三级结构来完成其特定的功能,而且结构通常包含更丰富的信息,例如存储在PDB文件中的原子的笛卡尔坐标,蛋白质结构是序列和功能双向映射的完美媒介。此外,以往研究积累的大量蛋白质结构数据,如蛋白质折叠分类、由此产生的聚类以及结合界面、催化中心和变构调控等描述的反应机制信息也将非常有帮助。因此,蛋白质从头设计主要以结构为基础的方式进行。
基于结构的从头蛋白设计通常有三个区域或阶段,即主干生成、序列适应度和候选评分,如Top 7[20],第一个没有天然同源物设计的球形蛋白,以及其他著名的相关作品。一般来说,在第一步设计具有预定义的次级结构元素和/或几何约束(如残差间的距离和方向)的特定折叠拓扑。然后,利用序列无关的能量函数进行评价,筛选出兼容的肽片段,并进行多次序列结构优化。在迭代过程中,采用Metropolis-Hastings算法根据能量函数随机替换转子。之后,对候选人进行评分、评分和选择,生成最终的设计输出[21]。
尽管取得了显著的成就[22-24],但这些传统的方法主要是基于知识的,依赖于物理原理和统计规则[25]。随着蛋白质序列、结构、功能及其相互关系的大量数据积累[26-28],近年来蛋白质设计的研究兴趣逐渐转向数据驱动的方法[29]。其中,深度学习技术对自然语言处理、计算机视觉[30]等诸多领域产生了革命性的影响。深度学习提供最简单、也最一般的近似和高阶统计参数化方法和势扩大接受域与大数据的支持,因此可以被集成到所有领域的基于结构的蛋白质设计进行进一步的改进和突破。此外,深度学习还揭示了在不依赖结构介质的情况下,直接设计具有特定功能或特性的蛋白质序列。在这篇综述中,我们将讨论基于深度学习技术的先进蛋白质设计方法,它们所提供的好处和可预测的趋势。值得注意的是,许多其他的进步极大地促进了蛋白质设计,例如DNA合成,蛋白质结构预测和蛋白质制造,这里将不详述。
简而言之,深度学习训练人工神经网络或相关网络的组合来在高维抽象空间中近似复杂的未知函数。具有非线性激活的人工神经元或节点通过特定的仿射变换连接起来,参数化权值和偏差,在每个训练步骤中通过反向传播从损失计算出的梯度进行修正,即当前网络输出与相应地面真实值之间的差异。
基于结构的蛋白质设计可以看作是蛋白质结构预测的逆过程。对于后者,需要为给定的序列建模一些潜在的结构,而对于前者,需要为设计好的拓扑结构的主干优化一些可行的序列(图2)。蛋白质同源性在蛋白质结构预测中起着重要的作用,为精确推断提供了大量的进化信息。近年来,深度学习在很多方面对蛋白质结构预测产生了革命性的影响,从早期的蛋白质残基间接触预测和接触辅助结构建模[31,53 - 57],到后来对残基间几何性质和基于几何约束的蛋白质折叠的精确预测[32,58 - 62]。此外,谷歌DeepMind开发的具有最先进的端到端训练程序的注意力网络在第十四届CASP (Critical Assessment of protein Structure Prediction)实验中为单结构域蛋白质的结构预测提供了极好的解决方案,震惊了公众[63-65]。用于蛋白质结构预测的深度学习技术,如卷积神经网络,可以有效地从多序列比对中蕴含的协同进化信息中捕获折叠级结构特征[66]。这些成果加深了我们对蛋白质序列-结构关系的理解,这也是基于结构的设计的基础,并提供了一系列可以直接用于设计问题的实用工具。除了通过结构预测的进步对蛋白质设计的环境改进外,定制化深度学习方法也直接对蛋白质设计做出了相当大的贡献。针对不同设计阶段不同设计目标的新型网络架构、训练程序和数据操作不断涌现,有力地推动了蛋白质的探索。我们将详细说明这些新特性,说明这些方法与传统的基于知识的方法之间的区别,并在以下部分阐明相应的意义。
如上所述,蛋白质设计的主要任务是找到能够稳定地展示所需特性和执行预期功能的序列。此外,信息通路越长,中转点越多,通常会引入不必要的数据转换和传输,可能会造成较大的信号偏差。因此,原则上,直接映射蛋白质序列和功能的空间似乎比需要预先确定的结构拓扑作为中间媒介的设计程序更有优势。更重要的是,由于测序技术的进步,蛋白质序列数据的积累速度比结构数据快得多,尤其是宏基因组学的引入[114]。大量的未标记序列结合深度学习对特征提取、模式识别和目标生成的强大能力,使直接探索序列空间和改进蛋白质设计范式成为可能和有价值的。与蛋白质适应性景观搜索给定的主干不同,直接序列设计在潜在空间学习序列表示的有意义的分布,并根据学习到的分布派生出的推测表示在真实空间生成序列(图4)。因此,生成模型在这一领域的应用比判别模型更为广泛(如表2所示)。在这一节中,我们将通过具体的案例来关注直接蛋白质序列设计的两个主要方面,以回顾过去的成就并预测未来的趋势。
基于深度强化学习的蛋白质设计方法就像自然蛋白质合成过程的计算机模拟(图5),随着更先进技术的应用,这些方法可以帮助我们挖掘更多蛋白质的内在原理,得到更多高质量的功能蛋白质材料。例如,DyNA PPO[132]就是基于proximalpolicy优化[133]的深度强化学习模型,用于序列设计。该模型从左到右依次生成氨基酸序列,整个过程被视为一个马尔可夫决策过程。在序列生成完成之前,对agent的奖励保持为0。在每一轮结束时,一组试图近似替代适应度函数的机器学习模型给出的序列适应度测量作为最终奖励。DyNA PPO通过使用一堆模型来学习序列适应度环境的不同方面,但只使用最合适的、具有足够精度的模型来更新其策略,从而平衡了奖励估计中的权衡。虽然DyNA PPO的优越性已经在多个方法的大规模基准测试中得到了证明,但该报告并没有通过湿实验室实验进行任何验证。因此,其实用性还需要在未来的研究中得到验证。此外,强化学习可以用来微调一些预先训练的生成模型的蛋白质设计。例如,RNN通过基于策略的强化学习方法进行调整,以生成理想的化合物[134]。这项研究最重要的启示是降低灾难性遗忘风险的尝试和成功[135],这是蛋白质生成模型的一个常见问题。
在过去的十年中,蛋白质设计取得了巨大的成功,帮助人类在多个方面应对社会挑战。这样的例子在我们的日常生活中随处可见,包括设计用于体内生物传感器的小分子结合蛋白[136,137],设计用于预防病毒感染的生物医学抑制剂[138],设计具有诱人催化效率的酶[139-141],设计高度对称的自组装材料,使疫苗应用具有抗原的多价呈现[10,142]等。最近,深度学习技术对蛋白质设计领域产生了初步但令人印象深刻的影响。通过在现有的蛋白质数据中提取和集成统计模式的惊人能力,人工深度神经网络学习基本的蛋白质特征,将它们存储在数十亿个参数中,并将它们推广到不同的子领域进行推断。然而,在我们常规使用深度学习方法设计任意蛋白质的道路上仍然存在障碍。例如,蛋白质折叠机制是生物信息学中最重要、最本质的问题之一,也是各种蛋白质设计方法的首要理论原则,我们对蛋白质折叠机制的认识还远远不够充分。在这一领域,深度学习、物理建模和仿真相结合已经做了许多努力。或许深度强化学习(deep reinforcement learning)尝试建立策略,并找到从延伸的蛋白质链到折叠良好的结构的可能轨迹也会有所帮助。
正如ImageNet数据库[143]对计算机视觉发展的影响一样,各个领域采用深度学习都需要丰富多样的、有良好注释的数据。然而,对于具有特定目标的蛋白质设计来说,蛋白质功能和性质的相关数据往往非常缺乏,而且缺乏统一的、标准的实验条件。训练数据的缺乏会阻碍准确的设计,从而导致额外的实验优化的需求。虽然已经建立了以ProtaBank[144]为例的一些数据库来缓解这一现象,但仍有很多工作要做。克服这一缺陷的另一个重要方向可能是少样本学习[145,146],据我们所知,相关的探索还没有尝试过。蛋白质设计中能量函数的评分精度和计算速度也需要进一步提高,因为能量函数指导优化方向,每一步都要重复使用。与传统的势能项相比,深度神经网络学习的能量函数对设计的评估更精确,但速度较慢。采用更先进、更轻量级的网络架构以及知识提炼[147]和网络修剪[148]可能会部分解决这一困境。蛋白质设计及其逆向过程——蛋白质结构预测——的另一个困境是,目前的优化方法通常擅长于只有一个最小值的景观,而许多蛋白质通过不同构象之间的结构转换来实现其功能和性质。这就需要深度学习方法来设计具有多个不同能量最小值的蛋白质。未来的研究人员应该关注这种复杂性。
最近,深度学习的引入已经对蛋白质设计领域产生了初步但具有变革性的影响。
深度学习可以提供快速、高通量和精确的硅蛋白设计方法。
我们回顾了基于深度学习的蛋白质设计方法在过去两年中取得的进展,并通过重要的里程碑说明了它们与传统的基于知识的方法相比的新颖性、优势和意义。我们还全面讨论了未来的挑战和机遇。
本文的综述有助于人们进一步了解该领域,促进相关研究的开展。