A long-standing goal of machine-learning-based protein engineering is to accelerate the discovery of novel mutations that improve the function of a known protein. We introduce a sampling framework for evolving proteins in silico that supports mixing and matching a variety of unsupervised models, such as protein language models, and supervised models that predict protein function from sequence. By composing these models, we aim to improve our ability to evaluate unseen mutations and constrain search to regions of sequence space likely to contain functional proteins. Our framework achieves this without any model fine-tuning or re-training by constructing a product of experts distribution directly in discrete protein space. Instead of resorting to brute force search or random sampling, which is typical of classic directed evolution, we introduce a fast MCMC sampler that uses gradients to propose promising mutations. We conduct in silico directed evolution experiments on wide fitness landscapes and across a range of different pre-trained unsupervised models, including a 650M parameter protein language model. Our results demonstrate an ability to efficiently discover variants with high evolutionary likelihood as well as estimated activity multiple mutations away from a wild type protein, suggesting our sampler provides a practical and effective new paradigm for machine-learning-based protein engineering.


翻译:机器学习相关的蛋白质工程的一个长期目标是加速发现改善已知蛋白质功能的新突变。我们引入了一种在计算机中进化蛋白质的采样框架,它支持混合各种无监督模型(例如蛋白质语言模型)和监督模型(可以通过序列预测蛋白质功能)。通过组成这些模型,我们旨在改善在未知突变(即不在训练集中的突变)的评估能力,并将搜索限制在可能包含功能性蛋白质的序列空间区域。我们的框架直接在离散蛋白质空间中构建专家的乘积分布,而不需要对模型进行任何微调或重新训练。我们引入了一种快速的 MCMC 采样器,该采样器使用梯度来提出有前途的突变,而不是采用传统的定向进化算法中的暴力搜索或随机采样方法。我们在宽阔的适应度地形和不同的预训练无监督模型之间进行了在计算机中的定向进化实验,包括一个含有 650 亿个参数的蛋白质语言模型。我们的结果表明,我们的方法能够高效地发现具有高进化可能性的变体,并且估计出距离野生型蛋白质多个突变之外的活性,这表明我们的采样器为基于机器学习的蛋白质工程提供了一种实用而有效的新范例。

0
下载
关闭预览

相关内容

Nature Methods | 蛋白质序列的深度嵌入和比对
专知会员服务
6+阅读 · 2022年12月26日
综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
15+阅读 · 2022年9月12日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
Nature Methods | 蛋白质序列的深度嵌入和比对
专知会员服务
6+阅读 · 2022年12月26日
综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
15+阅读 · 2022年9月12日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员