2022年7月,DeepMind声称AlphaFold已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构。如今,另一家科技巨头也加入了蛋白质结构预测的“军备竞赛”。 据Nature最新新闻报道,Meta(前身为Facebook)的研究人员开发了一种蛋白质结构预测模型ESMFold,预测了来自细菌、病毒和其他尚未表征的微生物的约6亿种蛋白质的结构。
该技术进展来自于Meta AI蛋白质团队于10月31日发表在预印本平台bioRxiv上的一篇文章Evolutionary-scale prediction of atomic level protein structure with a language model。ESMFold使用大型语言模型从主序列直接推断结构,预测的速度比最先进的方法快60倍,同时能够保持分辨率和准确性。
原文链接
https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2 基于该方法,Meta AI推出了ESM Metagenomic Atlas,这是第一个大规模的元基因组蛋白质的结构特征集,有超过6.17亿个结构(这项工作只花了2周时间)。该图集揭示了超过2.25亿个高置信度的预测,包括数百万个与实验确定的结构相比较新颖的结构,使人们前所未有地看到地球上一些最不为人所知的蛋白质结构的广阔性和多样性。
ESM宏基因组图谱数据库包含6.17亿种蛋白质的结构预测 ESMFold vs AlphaFold
与AlphaFold工作原理不同,ESMFold基于语言学习模型,而不是基于结构和序列匹配算法。 AlphaFold2和其他替代方法使用多序列比对(MSA)和类似蛋白质的模板来实现原子分辨率结构预测的最佳性能或突破性成功;而ESMFold通过利用语言模型的内部表征,只用一个序列作为输入就能生成结构预测。 Meta AI声称AlphaFold 2和RoseTTAFold具有相似的准确性,但ESMFold在探索宏基因组蛋白质的结构空间方面速度更快。
用ESMFold进行单序列结构预测的比较 ESMFold的优势之一是它提供了比现有原子分辨率结构预测方法更快的预测速度,这在某种程度上使它能够弥补包含数十亿序列的蛋白质序列数据库的快速增长与蛋白质结构和功能数据库的缓慢发展之间的差距。 6.17亿种蛋白质结构
作为测试案例,Meta AI将ESMFold用于来自环境来源(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA数据库。绝大多数编码潜在蛋白质的DNA条目来自从未培养过且科学未知的生物体。 总的来说,Meta团队预测了超过6.17亿种蛋白质的结构。这项工作只花了2周时间(AlphaFold 可能需要几分钟才能生成一个预测)。任何人都可以免费使用这些预测结构和模型背后的代码。 Meta AI蛋白质团队的研究负责人Alexander Rives说,“这些是我们最不了解的结构,这些是非常神秘的蛋白质。我认为它们提供了深入了解生物学的潜力。” 首尔国立大学的计算生物学家Martin Steinegger说,“AlphaFold数据库的很大一部分由彼此几乎相同的结构组成,而宏基因组数据库应该能够覆盖以前看不见的蛋白质宇宙的很大一部分,现在有很大的机会来解开更多的黑暗。” 参考资料 https://www.nature.com/articles/d41586-022-03539-1 https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【蛋白质结构与AlphaFold****】 ●打造生物科技领域的“EDA”,智峪生科推出全生态蛋白计算设计平台
●秒杀AlphaFold!Science:用AI一秒设计自然界全新蛋白质
●Cell|高精度从头设计可透膜的环状多肽 ●天壤单序列结构预测再获突破!助力生成生物学更快发展
●Nature评论|AlphaFold如何在结构生物学中实现AI的全部潜力 ●AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
●分子之心发力!业界首个功能完整的AI蛋白设计平台MoleculeOS首次公开
●Nat Mach Intel|用语言模型进行可控的蛋白质设计
●JCIM|药物发现中基于AI的蛋白质结构预测:影响和挑战 ●Commun Biol|人工智能指导下的内在无序蛋白质的构象挖掘
●Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
●Nat Methods|ColabFold:让所有人都能进行蛋白质折叠
●Nat Rev Mol Cell Bio|用人工智能预测蛋白质结构的前景和机遇 ●Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测
●Nat Commun|在生物科学领域应用深度学习的当前进展和开放挑战 ●Nature|仅根据靶点结构设计蛋白质的结合蛋白
●Facebook|从数百万个预测蛋白质结构中学习逆折叠,预测序列信息
●AI+蛋白质错误折叠疾病的药物开发|Congruence获5000万美元A轮融资 ●BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基
●Curr Opin Struc Biol|蛋白质设计的深度生成建模
●Nat Methods|用AlphaFold以原子精度预测蛋白质结构
●Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究 ●Nat Methods特刊|2021年度方法:蛋白质结构预测 ●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点