业界首创AI MSA引擎,让所有人都能做蛋白质结构预测

2022 年 8 月 6 日 PaperWeekly


前言

蛋白质结构预测是获得蛋白质功能结构和构象的过程,近半个世纪以来,这一问题一直被誉为“21世纪的生物物理学”最重要的课题之一。


在过去,因蛋白质构象数量巨大,计算过程复杂,通过AI来对蛋白质结构进行预测一直未能取得实质性突破,获取蛋白质空间结构的方法仍然以冷冻电镜、X-ray等实验技术为主,单个蛋白质的观测成本高达数月及数百万人民币。


直至AlphaFold 2的出现,使得这一问题迎来新的曙光。AlphaFold 2凭借其接近实验精度的成绩取得CASP14蛋白质空间结构预测比赛的榜首,这一成就也被Nature誉为“前所未有的进步”。


2021年7月DeepMind团队宣布对AlphaFold 2的推理源代码进行开源,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤课题组第一时间对其进行了复现及优化,并于同年11月开源了基于昇思MindSpore的推理工具,效率同比提升2-3倍。


日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组,在全场景AI框架昇思MindSpore上推出全流程蛋白质结构预测工具MEGA-Protein。



1

AlphaFold 2的缺陷

为了满足预测精度,AlphaFold 2必须引入多序列比对的信息。MSA的数量决定了AlphaFold 2的预测精度,因此AlphaFold 2有着自己的缺陷:


1

自然界中的「孤儿序列」以及人造序列存在着缺少MSA或没有MSA的情况,导致AlphaFold 2等模型对相关的结构预测准确度大幅下降。

2

AlphaFold 2等标准检索 MSA 流程,数据库规模大,搜索时间长,不利于展开研究。


2

AI MSA引擎

昇思MindSpore社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的AI MSA引擎具有如下几个优势:

1

对于原始MSA质量不高或者数量少的蛋白,将AI MSA引擎接入AlphaFold 2后可以明显改善结构预测的质量。

2

端到端推理性能大幅提升,训练完成的AI MSA引擎不需要额外配置数据库。

3

AI MSA引擎是一种对下游结构模型普适的预训练方案,可直接接入下游结构预测模型。


3

昇思MindSpore AI框架

AI MSA引擎训练参数量,数据量巨大,训练要求高,昇思MindSpore AI框架充分发挥以下优势,支撑完成AI MSA引擎的训练。

1

昇思MindSpore在昇腾AI基础软硬件平台上与昇腾CANN深度结合,通过深度协同优化的高性能算子库,充分释放硬件的算力。

2

昇思MindSpore采用了多段并行流水线的方式来构建数据处理pipeline,大幅提高了数据处理过程的吞吐量。

3

昇思MindSpore支持大集群高效训练,实现了优质的计算通信比,通过三层AI分布式编程范式,大幅提升分布式并行程序开发效率。


4

全流程蛋白质结构预测工具MEGA-Protein

MEGA-Protein包含AI MSA引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集PSP等关键技术,能够高精度高性能地预测蛋白质结构和功能,其中AI MSA引擎能够在MSA少样本甚至零样本的情况下,帮助AlphaFold 2等模型维持甚至提高推理精度,有效突破了AlphaFold 2的缺陷。


这是在实现AlphaFold 2从训练到推理全流程打通且效率同比提升2至3倍后,取得的又一次成功。



8月11至15日昇思MindSpore社区举办第二季「MindSpore SPONGE暑期学校」

 

14位国内知名专家全程手把手授课,覆盖典型蛋白结构预测模型、结构预测模型训练等内容。


我们希望MindSpore SPONGE被更多的老师,学生和业界开发者使用,并吸引到更多的开发者加入社区共同开发,丰富MindSpore SPONGE套件,共同探索开源科学软件的未来。




  免费报名  

即赠独家周边好礼 🎁


本次公开课不仅全程免费

小编还为大家准备了

深受炼丹师们喜欢的

PaperWeekly爆款周边


100位成功报名的读者

将随机获赠——

众多读者要求“回购”的贴纸套装

炼丹师必备超大鼠标垫

让你锦鲤护体的卡套组合

免费包邮 只送不卖

👇👇👇







如何报名?


1. 扫描报名二维码,如实填写信息并截图保存

2. 成功提交报名表后,按提示进入直播交流群

3. 扫码添加小助手微信,免费领取周边礼物🎁


MindSPONGE官方资料


MindSpore SPONGE Gitee:https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE


MindSpore官网:

https://www.mindspore.cn/


MindSpore Gitee:

https://gitee.com/mindspore/mindspore

登录查看更多
0

相关内容

综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
15+阅读 · 2022年9月12日
蛋白质深度神经网络能量函数的构建
专知会员服务
14+阅读 · 2022年8月28日
AlphaFold、人工智能(AI)和蛋白变构
专知会员服务
10+阅读 · 2022年8月28日
基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
9+阅读 · 2022年8月25日
Nat Methods|ColabFold:让所有人都能进行蛋白质折叠
专知会员服务
6+阅读 · 2022年6月27日
后AlphaFold时代,AI如何持续赋能蛋白质计算?
机器之心
1+阅读 · 2022年6月6日
阿里开源大规模稀疏推荐模型训练/预测引擎DeepRec
机器学习与推荐算法
0+阅读 · 2022年4月15日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
16+阅读 · 2018年2月7日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员