Protein science︱王舒禹团队：贝叶斯与图神经网络结合预测突变对蛋白质稳定性的影响

撰文︱王舒禹，唐洪舟蛋白质稳定性对抗体药物研究、药物耐药性、高性能酶研究至关重要。通常研究它的方法是测量其热力学性质，研究基因突变时引起蛋白热稳定性变化对应着吉布斯自由能变化(ΔΔG)。然而为了寻找提高稳定性的突变点，往往需要大量的尝试，若完全用实验的方法检测速度较慢。为了快速、准确地预测突变后蛋白质的稳定性变化，各种基于计算的预测方法被提出。比如基于各种物理化学假设的方法。另一个分支是利用机器学习进行快速预测，利用支持向量机、梯度提升、人工神经网络以及它们的结合等技术。但是以往基于机器学习的方法有显著缺点，即他们预测不稳定突变多于稳定突变，这种偏差，也是一种过拟合。最近出现的基于深度学习技术的研究，如卷积神经网络，很好地处理了这个问题，在对称预测取得了较好的效果，但是该方法很快遇到了瓶颈。蛋白分子本身属于图结构，图神经网络是潜在的更合适方法来学习分子特征，但是却鲜有人员将它用于蛋白的稳定性变化预测。究竟深度学习预测它的上限在哪，学术圈一直未能探究，这就需要能量化其误差。而贝叶斯方法结合进深度学习中潜在可以量化预测的不确定性，进而对该领域数据集质量有更深入的理解。

论文概要

近期，东北大学王舒禹团队在国际学术期刊PROTEIN SCIENCE预发表了题为“BayeStab: Predicting Effects of Mutations on Protein Stability with Uncertainty Quantification”的文章。该研究得到了密歇根大学左磊教授的大力支持与帮助。作者将图神经网络与贝叶斯网络方法结合来量化不确定性的方法，并分解其为模型引起的不确定性和数据噪声引起的不确定性。该方法通过端到端深度学习模型可以有效地学习分子特征，进而高效准确地预测ΔΔG。本研究地成果已经形成网络服务器http://www.bayestab.com。生物制药领域的科研人员如果需要使用，可以登录网站免费使用。

结果分析与阐述

BayeStab 的整体数据处理流程框图如图1所示,输入的数据是原生与突变后的蛋白PDB文件，然后经过剪裁之后，最终只剩下突变位置及其附近的氨基酸。PDB信息通过RDkit提取出原子的元素、近临原子、氢原子个数、键信息等形成输入的分子向量。图神经网络用图卷积、门控等对信息提取，然后再加入分子结构位置坐标，最终利用concrete dropout来进行量化不确定性，并将其分解。

作者使用S2648数据集来训练BayeStab。基于数据集的10倍交叉验证，BayeStab显示线性相关性为0.61, RMSE为1.19。在去除5%的异常值后，相关系数r可能增加到0.69, RMSE下降到1.06。作者还在Q3421数据集上通过10倍交叉验证训练模型。去除5%的异常值后，相关系数可达0.68,RMSE降至1.29。这些数据地表现都超过了以往模型。

评估该方法过拟合往往使用过的数据集上测试来估计性能。因此，作者分别在S611、S350、Myoglobin和S669数据集上进行了测试。训练前，对训练数据集与测试数据集之间的重叠样本进行挑选，以保证正确的评估。在使用S611数据集评估时，BayeStab在直接突变上得到r = 0.73， σ = 0.99，在反向突变上得到r = 0.73， σ = 0.99，在正向-反向预测上得到r = -0.97， δ = 0.01(图2(a)-(c))。在S350数据集上BayeStab在直接突变上得到r = 0.75， σ = 1.09，反向突变上得到r = 0.75， σ = 1.05，正向-反向预测上得到r = -0.97， δ = -0.02(图2(d)-(f))。在Myoglobin数据集上BayeStab在直接突变上得到r = 0.47， σ = 1.07，反向突变上得到r = 0.47， σ = 1.07，正向-反向预测上得到r = -0.97， δ = -0.01(图2(g)-(i))。在S669数据集上BayeStab在直接突变上得到r = 0.54， σ = 1.60，反向突变上得到r = 0.53， σ = 1.62，正向-反向预测上得到r = -0.97， δ = -0.01(图2(j)-(l))。以上测试结果均与以往方法做了对比取得了优于前人方法的效果。

值得注意的是，最后测试的S669是该领域最新的数据集，它所用到的蛋白与训练集种的蛋白不具有同源性，所以关于它的评测对于模型训练水平、防止过拟合的程度最具有说服力。本研究对其预测误差在1.6左右，这是由于测试数据与训练数据差别较大导致。同时对比以往研究，BayeStab的总体线性度是最高的（0.54左右）。

为了检验了得到的不确定性是否正确。作者减少训练集的大小并且观察由此产生的不确定性变化，所用的测试集是Ssym。研究发现当数据集的大小减小时，与数据固有噪声有关的随机不确定度保持不变（稳定在0.25），而与模型错误相关的认知不确定性应该会增加（从0.03升至0.13）。这表明现有的预测误差已经主要取决于数据集，模型误差已经很小了，而如果仪器的精度维持不变，即便增加了新的实验数据，现有的图神经网络模型也已经趋于预测的上限了。

我们使用 Flask 构建了一个免费的 Web 服务器（http://www.bayestab.com）（图3）。Web服务器将蛋白质的结构信息作为输入。用户可以将野生类型和突变类型的 PDB 文件上载到服务器。突变类型PDB文件可以由罗塞塔生成。接下来，用户需要填写突变信息。例如，L37S表示在氨基酸数37的位置，亮氨酸（L）变成丝氨酸（S）。用户还需要填写突变蛋白链信息，如A或B。最后，用户可以在提交任务后获得预测∆∆G。

文章结论与讨论，（未来）启发与展望

预测突变后蛋白质的热稳定性变化对于理解疾病和设计高稳定蛋白酶至关重要。然而，如何准确快速预测蛋白质的吉布斯自由能变化仍然面临着挑战。因此，该研究提出了一种基于贝叶斯方法的图神经网络来预测蛋白质稳定性的变化。本文中，作者使用了图神经网络来解决这一结构-性质预测任务。该方法在四个不同的数据集上进行了测试，并且在泛化性和对称性方面表现出良好的性能。同时，该方法使用了具有concrete dropout 的贝叶斯神经网络来推断合理的模型并估计了数据集和模型的不确定性。通过不确定性分析，证明了通过概率方法可以深入了解训练数据集的固有噪声，探索了该任务预测的上限，解开了该领域一直未解决的难题。

参考资料 Wang, S., Tang, H., Zhao, Y. and Zuo, L., 2022. BayeStab: Predicting Effects of Mutations on Protein Stability with Uncertainty Quantification. Protein Science, p.e4467.
作者介绍王舒禹博士是东北大学控制工程副教授。在开始他的职业生涯后，他从事多个领域的工作，包括软机器人和计算生物学。他还领导了设计算法以自动化传感器数据处理的工作。他最近的工作重点是利用人工智能分析多模态传感数据。他发表了20多篇SCI论文，被引用两百多次，h-index 9，并获得了两项专利。他曾受邀出席从软机器人的柔性传感器到计算生物学等领域的会议。

王教授2013本科毕业于华中科技大学机械工程专业。随后，他进入纽约州立大学石溪大学研究生院，在左磊教授的指导下2017年获得机械工程博士学位。毕业后，在格芯的框架小组担任工程师。在他的工业界工作后，2019年加入了东北大学。目前，王教授领导着一个由5名研究生和几名本科生组成的小组。他教授两门课程，指导本科生，在创新创业大赛中获得二等奖。王教授的研究得到了国家自然科学基金、河北省国家自然科学基金的慷慨资助。

成为VIP会员查看完整内容