AlphaFold预测了几乎所有已知蛋白质!涵盖100万物种2.14亿结构,数据集开放免费用

2022 年 7 月 29 日 量子位
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

全世界几乎所有已知蛋白质结构,都被AlphaFold预测出来了!

在预测出人类98.2%蛋白质一年后,DeepMind的重磅成果再次引爆学术界。

包括植物、细菌、真菌在内的100万个物种、2.14亿个蛋白质结构,现在都增加到了数据集中。

其中80%结构的可信度达到了足以支撑研究实验的水平,更有35%达到了高置信度。

而且这些数据全部免费开放

DeepMind表示,以后查找蛋白质结构,会像使用搜索引擎一样简单。

创始人哈撒比斯发推激动地说:

这是我们给全人类的一份礼物。

整个科研圈也再次被点燃,网友纷纷表示:难以置信,感谢开放数据集!

难以想象这会为药物研发带来什么!

像用搜索引擎一样查找蛋白质

这次数据集更新,主要增加了植物、细菌、动物和其他生物的蛋白质结构。

去年7月,AlphaFold数据集发布了人类98.5%的蛋白质结构,以及包含大肠杆菌、果蝇、小鼠等20个科研常用生物的蛋白质组数据。

数据集规模从之前的35万个蛋白质结构,一下子提升到了大约2.14亿个。

DeepMind创始人哈撒比斯表示,这基本上可以说是“整个蛋白质宇宙”了。

这意味着更多领域的研究可以被大幅提速。

斯克里普斯研究转化所创始人Eric Topol表示:

过去确定蛋白质3D结构往往需要数月或数年,而现在只用几秒钟。

要知道,蛋白质作为生命活动的基石,其相关研究对药物研发、疾病攻克、食品工程、农业、工业等领域都有重要影响。

但是蛋白质的研究却非常复杂。

因为其功能由结构决定,而其3D结构又是由氨基酸以脱水缩合的方式组成多肽链,多肽链再盘折叠而成。

也就是说,即使科学家们已知了蛋白质的氨基酸序列,可能的3D结构情况仍旧非常多。

假设一个蛋白质由100个氨基酸序列组成,那么它可能的3D结构情况将多达2的100次方个。

过去很长一段时间里,蛋白质预测工作主要通过科学家手动完成,比如施一公院士,就是用冷冻电镜预测蛋白质结构的顶级专家。

计算机虽然也能预测蛋白质结构,但是其准确性始终不高。

而这一局面,随着AlphaFold2的诞生后开始发生变化。

2020年12月,AlphaFold2在CASP14(蛋白质结构预测比赛)中的成绩,达到了史无前例的92.4/100

蛋白质真实结构之间只差一个原子的宽度,真正解决了蛋白质折叠的问题。

在此半年后,DeepMind先后开源AlphaFold2、AlphaFold数据集,可谓是在学术圈扔下了一记重磅炸弹。

2021年底,Nature将AlphaFold2预测人类98.5%的蛋白质并开源数据库列入年度十大科学事件

项目领队John Jumper也因此入选年度十大人物。

已有50多万学者访问过数据库

DeepMind最新公布数据显示,目前全球已经有190多个国家/地区、50多万名研究人员访问过AlphaFold数据集。

而学者们利用AlphaFold开展研究的成果也已经开始显现。

最近,发表在Science上的一篇研究表明,他们利用AlphaFold拼出了核孔复合体

这个结构由数百个蛋白质组成,控制着细胞核的物质进出,其相关研究是生物领域内的重点课题。

在AlphaFold的辅助下,该团队预测出了这一结构中一些未知区域。

黄色部分表示新预测结构

DNDi(被忽视疾病药物开发组织)也曾表示,AlphaFold2推动了他们在热带疾病药物开发方面的研究。

朴茨茅斯大学酶创新中心(CEI)则利用AlphaFold2开发一些新的酶,可以用来降解污染环境的一次性塑料。

此外,过去一年来不少学术机构都在开展AlphaFold的相关研究,以使得这一工具能够让更多学者便捷使用。

前不久,哥伦比亚大学发布了首个AlphaFold2完整复刻版模型,采用PyTorch框架。

与此同时,计算生物行业也成为了人们关注的焦点,不少公司都在推出相关业务。

或许正如网友所说,世界正在因此而改变。

参考链接:
[1]https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

[2]https://news.ycombinator.com/item?id=32262856
[3]https://www.nature.com/articles/d41586-022-02083-2

「AI制药深度产业报告 ·  量子位智库」下载

采访数十家机构并深入调研后,量子位智库撰写了《AI制药深度产业报告》,扫描下方二维码可下载完整报告。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」「点赞」和「在看」

科技前沿进展日日相见 ~



登录查看更多
0

相关内容

Nat. Biotechnol. | 用机器学习预测多肽质谱库
专知会员服务
17+阅读 · 2022年9月12日
AlphaFold、人工智能(AI)和蛋白变构
专知会员服务
9+阅读 · 2022年8月28日
AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
专知会员服务
12+阅读 · 2022年8月1日
深度学习预测蛋白质-蛋白质相互作用
机器之心
5+阅读 · 2022年1月15日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2022年10月3日
Arxiv
0+阅读 · 2022年9月30日
Arxiv
0+阅读 · 2022年9月30日
Arxiv
0+阅读 · 2022年9月29日
Arxiv
0+阅读 · 2022年9月29日
已删除
Arxiv
31+阅读 · 2020年3月23日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
1+阅读 · 2022年10月3日
Arxiv
0+阅读 · 2022年9月30日
Arxiv
0+阅读 · 2022年9月30日
Arxiv
0+阅读 · 2022年9月29日
Arxiv
0+阅读 · 2022年9月29日
已删除
Arxiv
31+阅读 · 2020年3月23日
Top
微信扫码咨询专知VIP会员