结构蛋白质组学以研究蛋白质和蛋白质复合物的结构-功能关系为重点,近年来发展迅速。自21世纪初以来,蛋白质数据库(Protein Data Bank)等结构数据库存储了越来越多的蛋白质结构数据,模型结构也越来越可用。结合基于图的机器学习模型的最新进展,这使得在预测模型中使用蛋白质结构数据成为可能,目标是创建工具,以促进我们对蛋白质功能的理解。与目前快速发展的分子图使用图学习工具类似,在蛋白质结构上使用图学习方法的趋势也越来越大。在这篇简短的综述论文中,我们调研了在蛋白质上使用图学习技术的研究,并检验了它们的成功和不足,同时也讨论了未来的方向。
蛋白质是我们体内所有细胞的基石。虽然DNA分子拥有生命所必需的所有信息,但却是蛋白质执行遗传物质[1]的编码。蛋白质的功能在很大程度上取决于其三维构象,了解蛋白质的三级结构是了解其功能[2]的基本前提。虽然有许多专门的蛋白质结构数据库[3,4],但蛋白质数据库(protein Data Bank, PDB)是事实上国际公认的存储实验确定的3D蛋白质结构[5]的数据库。在过去的二十年中,我们已经看到PDB[6]中沉积的蛋白质结构有了显著的增加,[7]领域的科学家对其使用也有了增加。此外,由于Alphafold[8,9]模型在从其氨基酸序列预测蛋白质结构方面的成功,最近创建了一个大型数据库,其中包含几乎整个人类蛋白质组[10]的模型结构。
与生物领域中结构化数据的增长并行的是,新型机器学习(ML)和深度学习(DL)方法正在开发中,它们可以利用大量数据来实现高预测性能[11,12]。在过去的几年中,为了从复杂的结构数据中学习,特别是在结构组件较强的任务中,越来越多的人努力将DL技术扩展到几何领域。因此,我们创建了伞形术语几何深度学习,包括这些技术[13],其中一个子集包括用于建模网络关系、数据诱导相似性以及3D形状[13]的图学习模型。基于图的学习方法受到了好评,并在基准网络数据集上取得了巨大的成果,因此,鼓励研究人员在不同的领域和应用中使用这些方法。基于图的模型已经被用于推荐系统、社交网络、材料研究等[14]。图学习模型也被应用于生物领域,最近在生物相关领域取得的成功之一是分子图学习,这是一个用图学习模型预测分子生化性质的分支领域。这一领域的进展使得开发了更专门提取/使用分子结构信息[15]的分子特异性图模型,并推动了整个图学习领域以及[16]的发展。
**鉴于蛋白质结构数据的增加和图学习方法的成功,在结构蛋白质组学领域使用图学习模型的研究自然会出现。这次简短回顾的目的是:提供基于蛋白质图表示的相关工作。介绍图表示学习(GRL)领域,并探讨其在结构蛋白质组学中的潜在应用。报告研究在六个不同的蛋白质组学任务类别,图学习模型已成功使用。