JCIM | 通过蛋白质溶剂可及表面评估Alphafold2预测人源蛋白质结构的性能

蛋白质数据库（Protein Data Bank）收录着成千上万实验鉴定的蛋白质结构数据，可惜的是，目前PDB仅收录35%的人源蛋白质的结构。近年发布的深度学习蛋白质结构预测工具AlphaFold2（AF2）能够从蛋白序列准确预测蛋白质结构，可以在一定程度上弥补PDB收录结构数量上的不足。然而如何评价AF2的预测结果的准确程度颇为重要。近期，丹麦科技大学的Kasper P. Kepp教授团队提出使用精确计算残基的相对溶剂可及表面（relative solvent accessible area ，RSA）作为评估指标，可用以评价AF2对蛋白质结构预测的准确度。作者认为残基的溶剂可及表面积包含着蛋白质功能和进化信息，是一个直接用于深度学习模型训练或外部验证的可解释自然特征。为了验证猜想，作者建立了一个AF2预测结构和实验结构相对应的数据对库并针对RSA进行了一系列测试。该工作近期发表于美国化学会出版的计算化学核心期刊Journal of Chemical Information and Modeling[1]。首先，作者从AF2预测结构数据库（AlphaFold Protein Structure Database）获取人源参考蛋白质组；从PDB中获取使用X-ray晶体学方法鉴定、分辨率<2.0Å的人源蛋白质结构。然后将每个AF2结构先后通过匹配UniProt编号配对、序列比对，产生对应的数据对库。为了探寻可能影响AF2性能的其他因素，作者依据（1）序列一致性比例（2）实验结构的分辨率（3）实验结构是否为单体为基准，拆分成子数据集，将这些结构进一步整理成分为六个非重叠组。随后，研究者计算并比较了AF2生成结构（RSAAF）和实验结构（RSAEP）中每个残基主干的RSA，从平均RSAExp值计算出的平均绝对偏差（MAE）、平均符号偏差（MSD）和标准差（SD），发现仅针对蛋白质单体而言，MSD和SD值不依赖于序列一致性或实验结构的分辨率，说明AF2预测单体结构的性能与配体的存在无关。

图 1 根据序列一致性、实验结构分辨率和实验结构的单体-多聚体状态分组的结果实验对比的AF2和RSA值为了确定AF2预测置信度pLDDT与预测****RSA的准确性是否相互影响，作者将结构对上的残基按照pLDDT和RSA分别划分区间，发现RSAAF没有因残基pLDDT值低受到影响（图2A）；但在高****RSA的残基上AF2预测置信度较低，AF2对于低****RSA的包埋残基预测更准确。（图2B）

图 2 pLDDT和RSA相关的偏差.（A）对pLDDT函数的偏差；（B）对RSAExp的偏差然而，与蛋白质单体相比，多聚体结构更加复杂，存在着不同链之间的界面残基，实验结果也显示了这种差异的存在（图3左）。作者识别并移除了链界面可能具有较低溶剂可及性的残基(与其他链残基距离<3.5Å），发现剩余残基RSAAF和RSAExp之间的相关性更强，达到了单体数据对的相关性水平（图3右）。实验结果说明，AF2对多聚体蛋白复合物链界面残基RSA的预测值存在偏高现象。

图 3 多聚体实验结构中的实验与AF2 RSA值。界面残留物（左）和非界面残留物（右）的RSAAF和RSAExp的相关性。研究者还认为AF2预测RSA的准确性也可能取决于氨基酸类型。实验结果（图4）说明最易预测的氨基酸往往是非极性的，例如异亮氨酸((I)、亮氨酸(L)等，该类氨基酸更多处于包埋残基。而位于蛋白质表面区域的极性氨基酸和脯氨酸较难预测，如天冬氨酸(D)和谷氨酸(E)等，尤其是脯氨酸(P)。

图 4 实验和AF2结构之间的一致性取决于残基类型；左：MAE。右：MSD（RSAAF−RSAExp）；SDs显示为蓝点小结

****这项工作提出蛋白质局部残基的相对溶剂可及表面（RSA）是一种包含着蛋白质功能和进化信息的自然特征，可用于评估AF2预测性能。通过作者研究发现RSA与AF2预测性能的相关性高度依赖于人源蛋白的单体/多聚体状态；与AF2预测置信度高低、结构中辅因子和配体的存在与否、结构鉴定分辨率均无关。小编认为仅蛋白单体预测而言，该工作提出的RSA特征，可作为目前主流的评估AF2预测性能的RMSD、pLDDT等指标的补充，共同对AF预测结构准确性做出精确的评估。 参考文献[1]Bæk KT, Kepp KP. Assessment of AlphaFold2 for Human Proteins via Residue Solvent Exposure. J Chem Inf Model. 2022;62(14):3391-3400.

成为VIP会员查看完整内容