Bridging the exponentially growing gap between the numbers of unlabeled and labeled protein sequences, several studies adopted semi-supervised learning for protein sequence modeling. In these studies, models were pre-trained with a substantial amount of unlabeled data, and the representations were transferred to various downstream tasks. Most pre-training methods solely rely on language modeling and often exhibit limited performance. In this paper, we introduce a novel pre-training scheme called PLUS, which stands for Protein sequence representations Learned Using Structural information. PLUS consists of masked language modeling and a complementary protein-specific pre-training task, namely same-family prediction. PLUS can be used to pre-train various model architectures. In this work, we use PLUS to pre-train a bidirectional recurrent neural network and refer to the resulting model as PLUS-RNN. Our experiment results demonstrate that PLUS-RNN outperforms other models of similar size solely pre-trained with the language modeling in six out of seven widely used protein biology tasks. Furthermore, we present the results from our qualitative interpretation analyses to illustrate the strengths of PLUS-RNN. PLUS provides a novel way to exploit evolutionary relationships among unlabeled proteins and is broadly applicable across a variety of protein biology tasks. We expect that the gap between the numbers of unlabeled and labeled proteins will continue to grow exponentially, and the proposed pre-training method will play a larger role.


翻译:在缩小未贴标签和贴标签的蛋白质序列数量之间的巨大差距方面,一些研究采用了半监督的蛋白质序列模型模型学习方法。在这些研究中,模型经过预先培训,获得大量未贴标签的数据,并被转移到各种下游任务。大多数培训前方法完全依赖语言模型,通常表现有限。在本文中,我们引入了一个叫PLUS的新的培训前计划,即PLUS,它代表的是蛋白质序列表示方法。PLUS由隐蔽语言模型和补充性蛋白质特定培训前任务组成,即同一家庭预测。PLUS可以用于预先培训各种模型结构。在这项工作中,我们使用PLUS来预先培养双向经常性神经网络,并提到由此产生的模型,即PLUS-RNNN。我们的实验结果表明,PLUS-RNN(RNNN)比其他类似规模的模型要优于仅预先训练过的语言模型,在七种广泛使用的蛋白质生物学任务中进行模拟。此外,我们展示了我们定性解释分析的结果,用以说明PLUS(PLN-NBIBIBIL) 和BIBIBIBIL(M)B)B(C)B)B(B)B)BIL)B)B(我们将继续利用一个不甚小的模型和BIBIBIBIBIBIBIB(B(B)的模型(BLBLBLB)的模型, 和B)的模型。

0
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
3+阅读 · 2020年2月5日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员