蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》 - 专知VIP

会员服务 ·

12

蛋白质序列 · Roshan Rao · 博士论文 · 蛋白质语言模型 · Transformer ·

2022 年 3 月 22 日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近，伯克利大学Roshan Rao 157页博士论文介绍了在通用基准上训练和评估蛋白质语言模型的方法。随后，研究了模型缩放、数据预处理和训练超参数对transformer在无监督的情况下学习蛋白质接触能力的影响，然后提出了一种在MSA上操作而不是在单个序列上操作的新方法，并证明了该方法在多个下游任务上实现了最优的性能。最后，讨论了所有这些方法在蛋白质设计中的应用。

作者介绍：

Meta AI的一名研究科学家，研究蛋白质序列的神经进化模型。之前，我在加州大学伯克利分校攻读博士学位，在那里我得到了John Canny和Pieter Abbeel的指导! https://rmrao.github.io/作者发表的文章

训练，评估和理解蛋白质序列的进化模型Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

新的蛋白质序列通过突变产生。这些突变可能是有害的，有益的，或中性的;突变对生物体进化适应性的影响反映在生物体存活的时间是否足够长，使其蛋白质能够被采样并储存在序列数据库中。长期以来，生物信息学一直寻求利用这种进化信号，通常以多重序列比对(MSAs)的形式，来推断新蛋白质的结构和功能。随着神经网络和自监督预训练的出现，一种不同的方法出现了，使用语言建模目标对大规模神经网络进行预训练，从输入的蛋白质序列自动生成信息特征。

本文介绍了在一个通用基准上训练和评估蛋白质语言模型的方法。随后，研究了增加模型扩展、数据集预处理和超参数训练对transformers 在没有监督的情况下学习蛋白质接触能力的影响。一种新的方法操作在MSAs而不是单一序列，然后提出，并显示在几个下游任务达到最先进的性能。最后，讨论了这些方法在蛋白质设计中的应用。

本论文试图回答关于蛋白质序列语言建模的三个关键问题:

NLP中非监督学习的标准方法是否能学习生物学相关的特征?
我们如何定制用于训练蛋白质的无监督模型的数据、模型和任务?
蛋白质序列的大规模无监督模型能用于蛋白质设计吗?

成为VIP会员查看完整内容

26

相关内容

蛋白质序列

蛋白质序列

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

62+阅读 · 2021年6月7日

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

专知会员服务

35+阅读 · 2021年5月26日

【Cell 2020】神经网络中的持续学习

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

【哈佛大学最新论文】使用AlphaFold估算蛋白质模型精度的最新技术

【哈佛大学最新论文】使用AlphaFold估算蛋白质模型精度的最新技术

专知

0+阅读 · 2022年3月14日

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

GenomicAI

1+阅读 · 2022年3月13日

科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能

科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能

机器之心

0+阅读 · 2022年2月12日

深度学习预测蛋白质-蛋白质相互作用

深度学习预测蛋白质-蛋白质相互作用

机器之心

5+阅读 · 2022年1月15日

NeurIPS 2021 | 微软研究院提出CLUES，用于NLU的少样本学习评估

NeurIPS 2021 | 微软研究院提出CLUES，用于NLU的少样本学习评估

PaperWeekly

0+阅读 · 2021年11月22日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

家蚕基因组中未知转座子的注释及比较基因组学研究

国家自然科学基金

0+阅读 · 2014年12月31日

结合先进机器学习方法的代理模型进化算法研究

国家自然科学基金

4+阅读 · 2013年12月31日

蛋白质超二级结构特征表达及分类算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于数据整合的计算癌症基因组学研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于混合及微藻受光特性参数分析的光生物反应器优化与放大方法

国家自然科学基金

0+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

康复训练机器人在线评估上肢肌痉挛方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

改造调控蛋白设计D-塔格糖信号分子及其功能验证

国家自然科学基金

0+阅读 · 2011年12月31日

应用机器学习方法预测和分析蛋白质的结构柔性

国家自然科学基金

4+阅读 · 2010年12月31日

Bodyless Block Propagation: TPS Fully Scalable Blockchain with Pre-Validation

Arxiv

0+阅读 · 2022年4月19日

Marginal log-linear models and mediation analysis

Arxiv

0+阅读 · 2022年4月18日

Broadening AI Ethics Narratives: An Indic Art View

Arxiv

0+阅读 · 2022年4月17日

Solving the Dirichlet problem for the Monge-Ampère equation using neural networks

Solving the Dirichlet problem for the Monge-Ampère equation using neural networks

Arxiv

0+阅读 · 2022年4月15日

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

VIP会员

相关主题

蛋白质序列

蛋白质语言模型

相关VIP内容

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

62+阅读 · 2021年6月7日

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

专知会员服务

35+阅读 · 2021年5月26日

【Cell 2020】神经网络中的持续学习

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

【哈佛大学最新论文】使用AlphaFold估算蛋白质模型精度的最新技术

【哈佛大学最新论文】使用AlphaFold估算蛋白质模型精度的最新技术

专知

0+阅读 · 2022年3月14日

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

GenomicAI

1+阅读 · 2022年3月13日

科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能

科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能

机器之心

0+阅读 · 2022年2月12日

深度学习预测蛋白质-蛋白质相互作用

深度学习预测蛋白质-蛋白质相互作用

机器之心

5+阅读 · 2022年1月15日

NeurIPS 2021 | 微软研究院提出CLUES，用于NLU的少样本学习评估

NeurIPS 2021 | 微软研究院提出CLUES，用于NLU的少样本学习评估

PaperWeekly

0+阅读 · 2021年11月22日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关基金

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

家蚕基因组中未知转座子的注释及比较基因组学研究

国家自然科学基金

0+阅读 · 2014年12月31日

结合先进机器学习方法的代理模型进化算法研究

国家自然科学基金

4+阅读 · 2013年12月31日

蛋白质超二级结构特征表达及分类算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于数据整合的计算癌症基因组学研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于混合及微藻受光特性参数分析的光生物反应器优化与放大方法

国家自然科学基金

0+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

康复训练机器人在线评估上肢肌痉挛方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

改造调控蛋白设计D-塔格糖信号分子及其功能验证

国家自然科学基金

0+阅读 · 2011年12月31日

应用机器学习方法预测和分析蛋白质的结构柔性

国家自然科学基金

4+阅读 · 2010年12月31日

相关论文

Bodyless Block Propagation: TPS Fully Scalable Blockchain with Pre-Validation

Arxiv

0+阅读 · 2022年4月19日

Marginal log-linear models and mediation analysis

Arxiv

0+阅读 · 2022年4月18日

Broadening AI Ethics Narratives: An Indic Art View

Arxiv

0+阅读 · 2022年4月17日

Solving the Dirichlet problem for the Monge-Ampère equation using neural networks

Solving the Dirichlet problem for the Monge-Ampère equation using neural networks

Arxiv

0+阅读 · 2022年4月15日

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

微信扫码咨询专知VIP会员