妙啊！用扩散模型生成蛋白质结构，结果不输天然蛋白质｜来自斯坦福&微软

会员服务 ·

妙啊！用扩散模型生成蛋白质结构，结果不输天然蛋白质｜来自斯坦福&微软

2022 年 10 月 5 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

没想到，图像生成领域的大明星——

扩散模型，这么快就被用来做蛋白质结构生成了！

而且结果在复杂度和结构上都和天然蛋白质有的一拼。

消息一出，不少人都称赞这个组合简直非常妙。

还有人表示：我早就猜到了，生成模型能做的真的不仅是图像和视频。

所以，AlphaFold这是可能有新的挑战者了？

具体是怎么回事？

来看看斯坦福大学和微软的这项最新研究成果到底怎么说。

扩散模型vs蛋白质结构生成

说起研究的初衷，作者表示：

尽管蛋白质结构预测已经取得了非常好的成绩，但要从神经网络中直接生成多结构多样又新颖的蛋白质结构仍然很困难。

他们想到用基于扩散的生成模型来挑战这一任务，并通过镜像蛋白质自然折叠过程来设计蛋白质主链结构。

具体来说，就是将蛋白质主链结构看成一系列连续的角度，这些角度会捕捉组成氨基酸残基的相对方向。

进而通过从随机、未折叠状态到稳定折叠结构的去噪就可以生成新结构。

作者表示，这一设计不仅可以反映蛋白质如何在生物学上扭曲成能量上有利的结构（how proteins biologically twist into energetically favorable conformations），这种表示的固有位移和旋转不变性也可以极大地减轻模型对复杂等变网络的需要。

在实现上，作者仅用一个简单的transformer作为backbone就训练出了一个去噪扩散概率模型。

最终证明它可以无条件地生成高度真实的蛋白质结构，其复杂性和结构模式类似于天然蛋白质的结构模式。

如下图Ramachandran plot（拉氏图，专门用于检测蛋白质构象是否合理）所示，左右分别为测试集和生成的蛋白质主干的（φ，ψ）二面角。

可以看到，三个主要结构元素、以及一些不太常见的角度组合都在他们用扩散模型生成的主干中得到了呈现。

目前，基于以上成果，作者已公开发布了首个用于蛋白质结构扩散的开源代码库和训练模型，详情可戳文末链接。

不过，作为一个初步探索，他们也指明这项成果还存在几个局限性，比如：

1、与通常有几百个残基的天然蛋白质相比，模型生成的结构仍然相对较短（最多128个残基）；

2、由于没有处理多链复合物或配体相互作用，模型无法捕获蛋白质的动态性质，只能生成静态结构；

3、将蛋白质表述为一系列角度的框架设计会造成一些累积误差，最终显著改变生成的整体结构。

最后一个问题则可以对未来工作提供思路，比如试着用几何信息架构中使用的方法来解决相关问题。

最后，除了再次刷新我们对扩散模型的认知，一位毕业于ETH的研究人员看完这项成果后还大胆预测道：

未来5年内，可能渐渐没有人会对全新的蛋白质序列或折叠感到兴奋了。

因为潜在的新酶和治疗性抗体将通过文本提示生成。

对于这项成果，你有什么想说的？

论文地址：
https://arxiv.org/abs/2209.15611

代码：
https://github.com/microsoft/foldingdiff

— 完 —

「2022人工智能年度评选」火热报名中

现在，量子位「2022人工智能年度评选」已经正式启幕，评选将从企业、人物、产品/解决方案三大维度设置5类奖项。

更多关于评选标准、榜单报名欢迎扫描下方二维码～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

结构

关注 1

AlphaFold新竞争对手出现，ESMFold预测了6亿种蛋白质结构

专知会员服务

10+阅读 · 2022年11月7日

基于深度学习的准确性估计指导蛋白质结构优化

专知会员服务

4+阅读 · 2022年10月9日

Science | ProteinMPNN : 基于深度学习的蛋白序列设计

专知会员服务

11+阅读 · 2022年9月18日

蛋白质深度神经网络能量函数的构建

专知会员服务

15+阅读 · 2022年8月28日

JCIM | 通过蛋白质溶剂可及表面评估Alphafold2预测人源蛋白质结构的性能

专知会员服务

5+阅读 · 2022年8月28日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

基于几何结构预训练的蛋白质表征学习

专知会员服务

15+阅读 · 2022年8月21日

Nat Methods｜ColabFold：让所有人都能进行蛋白质折叠

专知会员服务

7+阅读 · 2022年6月27日

【Nature通讯】结合深度学习和分子动力学模拟探索蛋白质的长程相互作用模式和酶活性

专知会员服务

19+阅读 · 2022年4月7日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

英伟达也来卷AI绘画，支持几笔完成精准构图，还提出扩散模型进化新方向

量子位

0+阅读 · 2022年11月4日

斯坦福、微软联手，用扩散模型进行蛋白质结构生成，已开源

机器之心

1+阅读 · 2022年10月4日

快了一个0！Meta祭出150亿参数蛋白质大模型，碾压AlphaFold2

新智元

1+阅读 · 2022年7月22日

许锦波团队开发蛋白逆折叠深度学习框架，用更少结构数据训练获得更准确序列预测

机器之心

0+阅读 · 2022年4月24日

快80~500倍！人工智能快速预测两种蛋白质的结构互作方式

机器之心

1+阅读 · 2022年2月19日

卟啉功能化分离材料的制备及其对血浆疏水蛋白质的分子识别性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于几何形状的彩色纹理分析方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

唐氏综合症黏附分子及相关蛋白的结构生物学研究

国家自然科学基金

0+阅读 · 2014年12月31日

从头设计蛋白质DS119折叠机制的分子模拟研究

国家自然科学基金

0+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

蛋白质三维拼装基元

国家自然科学基金

1+阅读 · 2011年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

二氧化钛纳米管结构与性质的量子化学计算研究

国家自然科学基金

0+阅读 · 2009年12月31日

蛋白质-蛋白质对接的计算模型研究

国家自然科学基金

0+阅读 · 2008年12月31日

微流控芯片单细胞蛋白质组学新方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

The Functional Machine Calculus II: Semantics

Arxiv

0+阅读 · 2022年11月23日

Bridging the Gap Between Tree and Connectivity Augmentation: Unified and Stronger Approaches

Arxiv

0+阅读 · 2022年11月23日

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling

Arxiv

0+阅读 · 2022年11月23日

High-Order Methods for Hypersonic Flows with Strong Shocks and Real Chemistry

Arxiv

0+阅读 · 2022年11月22日

A Categorical Normalization Proof for the Modal Lambda-Calculus

Arxiv

0+阅读 · 2022年11月22日

Decision-making with Imaginary Opponent Models

Arxiv

0+阅读 · 2022年11月22日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Automatically Designing CNN Architectures for Medical Image Segmentation

Arxiv

10+阅读 · 2018年7月19日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

VIP会员