国产AI蛋白质结构预测再现突破,用单条序列解决3D结构,彭健团队:“AlphaFold2以来最后一块拼图补齐了”

2022 年 7 月 22 日 量子位
万博 发自 凹非寺
量子位 | 公众号 QbitAI

计算生物领域,出现一则最新进展:

AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。

也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。

达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。

研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院

AI预测蛋白质结构不再需要同源信息

据华深智药披露,其最新开发的OmegaFold算法,实现了用单一蛋白质序列预测蛋白质3D结构的能力。

而且在测试准确度上,和AlphaFold2和RoseTTAFold不相上下。

同时在测试速度,快于AlphaFold2和RoseTTAFold。

具体测试过程,是这样的:

研究团队分别对CASP和CAMEO的蛋白质数据集进行了测试,其中CASP数据集有29个蛋白质,CAMEO数据集有146个单链蛋白质。

(PS:这里的CASP和CAMEO,是蛋白质结构预测领域最重要的两项比赛)

作为对比,在测试中,研究团队在上OmegaFold仅输入单一蛋白质序列,对 AlphaFold2和RoseTTAFold,则是在默认模式下输入多重序列(MSA)

最终,CAMEO数据集测试,OmegaFold预测的蛋白质3D结构,平均局部距离差异测试(LDDT:全球结构预测领域主要评价指标)得分为0.82。

而AlphaFold2与RoseTTAFold的得分,分别是0.75和0.86。

CASP数据集的测试结果,OmegaFold的平均TM分值*(评估蛋白质结构拓扑学相似性的常用指标)为0.79,与AlphaFold2不相上下,不过略低于RoseTTAFold 0.81的分数。

研究团队表示,从结果来看,采用单序列进行预测的OmegaFold,已经整体达到或超越了采用多序列预测的AlphaFold2和RoseTTAFold。

而且,研究团队还发现,因为只采用单一序列预测蛋白质的3D结构,因此在AI算法的训练和预测速度上,也有很大提升,蛋白质结构预测时间,可以被压缩到数秒内。

Helixon团队还同时发现,仅通过氨基酸序列来预测三维结构,不仅减少了同源序列所带来的噪音,还能够提高训练和预测的计算速度,使得蛋白质结构可以在数秒内被预测完毕。

基于此,研究团队用OmegaFold,对两类缺乏蛋白质同源进化信息的蛋白质,抗体蛋白质和孤儿蛋白质进行结构预测。

结果发现,OmegaFold在这两类蛋白质,尤其是抗体的关键功能区结构预测,有突破性的进展。

而这类缺乏蛋白质同源进化信息的蛋白质,恰好是AlphaFold2和RoseTTAFold无法到达的盲区。

对此,华深智药创始人彭健认为,这项研究成果意味着:

蛋白质3D结构预测,并不需要同源序列的存在,也不需要知道任何进化信息。

而华深智药表示:

OmegaFold的出现补全了蛋白质三维结构预测的最后一块拼图

另外,华深智药还披露了OmegaFold背后的技术细节。

具体来看,OmegaFold能够用单一序列取代多重同源序列,是因为研究团队采用了一种,基于几何信息的深度学习模型——OmegaPLM

该学习模型可以根据蛋白质的序列信息,预测原子坐标,同时经过训练学习,预测原子在三维空间的距离。

在不断的迭代之后,可以让这些预测出来的原子坐标和距离,满足基本的几何定律,最终形成蛋白质结构。

OmegaFold的能力,和背后的技术原理整明白了,最后还剩下一个问题:

华深智药是谁?

公开信息显示,华深智药是一家AI创新药物研发商,成立于2021年6月,总部位于北京,最早是由张亚勤旗下的清华大学智能产业研究院孵化而来。

早在去年12月份,华深智药开发的HeliXonAI算法,就在全球持续蛋白质结构预测竞赛CAMEO上,实现对AlphaFold2的反超,以84.0的lDDT预测精确度得分,刷新了CAMEO竞赛得分记录。

一家成立半年左右的初创企业,出道即巅峰。

而巅峰背后的关键先生,就是华深智药创始人彭健

彭健,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系及医学院终身教授,计算生物领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家。

他在博士期间设计的著名算法 RaptorX,以及在UIUC任教期间设计的DeepContact算法,多次在CASP比赛中获得领先的成绩,并很早就尝试将深度学习的技术引入这个领域。

彭健也因此在2016年获得有“诺奖风向标”之称的斯隆研究奖,并于2020年获得计算生物领域最高奖奥弗顿奖(Overton Prize),成为该奖项20年来首位华人得主。

去年6月,彭健看到AI在生物制药领域的应用前景,于是就在清华大学智能产业研究院孵化之下,正式创办华深智药。很快便完成了千万美元级天使轮融资。

同时在今年6月,成立一周年之际,华深智药又完成由五源资本领投,高榕资本、Neumann Capital以及三家天使轮投资方襄禾资本、高瓴创投、清智资本跟投的A轮融资,融资金额近5亿元人民币。

参考链接:

[1]https://helixon.s3.amazonaws.com/omegafold.pdf
[2]https://twitter.com/peng_illinois/status/1538536909814874113

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
0

相关内容

综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
15+阅读 · 2022年9月12日
AlphaFold、人工智能(AI)和蛋白变构
专知会员服务
10+阅读 · 2022年8月28日
基于几何结构预训练的蛋白质表征学习
专知会员服务
14+阅读 · 2022年8月21日
AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
专知会员服务
13+阅读 · 2022年8月1日
AI算法 | 基于矩阵补全多视图学习的药物重新定位
专知会员服务
11+阅读 · 2022年7月19日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
28+阅读 · 2022年6月16日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年9月19日
Arxiv
0+阅读 · 2022年9月19日
Arxiv
0+阅读 · 2022年9月15日
Arxiv
46+阅读 · 2021年10月4日
Arxiv
12+阅读 · 2021年7月26日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员