蛋白质自监督学习的结构感知方法 (Structure-aware Protein Self-supervised Learning) - 专知论文

会员服务 ·

0

结构感知 · 蛋白质语言模型 · 结构 · 监督学习 · 监督 ·

2023 年 4 月 8 日

Structure-aware Protein Self-supervised Learning

翻译：蛋白质自监督学习的结构感知方法

Can Chen,Jingbo Zhou,Fan Wang,Xue Liu,Dejing Dou

from arxiv, Accepted by Bioinformatics; 7 pages 4 figures

Protein representation learning methods have shown great potential to yield useful representation for many downstream tasks, especially on protein classification. Moreover, a few recent studies have shown great promise in addressing insufficient labels of proteins with self-supervised learning methods. However, existing protein language models are usually pretrained on protein sequences without considering the important protein structural information. To this end, we propose a novel structure-aware protein self-supervised learning method to effectively capture structural information of proteins. In particular, a well-designed graph neural network (GNN) model is pretrained to preserve the protein structural information with self-supervised tasks from a pairwise residue distance perspective and a dihedral angle perspective, respectively. Furthermore, we propose to leverage the available protein language model pretrained on protein sequences to enhance the self-supervised learning. Specifically, we identify the relation between the sequential information in the protein language model and the structural information in the specially designed GNN model via a novel pseudo bi-level optimization scheme. Experiments on several supervised downstream tasks verify the effectiveness of our proposed method.The code of the proposed method is available in \url{https://github.com/GGchen1997/STEPS_Bioinformatics}.

翻译：蛋白质表示学习方法已显示出产生许多下游任务所需的有用表示的巨大潜力，特别是在蛋白质分类方面表现出色。此外，一些最近的研究表明，利用自监督学习方法可以解决蛋白质标签不足的问题。然而，现有蛋白质语言模型通常是在不考虑重要的蛋白质结构信息的情况下针对蛋白质序列进行预训练的。为此，我们提出了一种新颖的结构感知蛋白质自监督学习方法，以有效捕捉蛋白质的结构信息。具体而言，我们预先设计了一个严谨的图神经网络 (GNN) 模型，通过一对残基距离的角度和二面角，分别预训练以保留蛋白质结构信息。此外，我们提出利用在蛋白质序列预训练的蛋白质语言模型来增强自监督学习。具体而言，借助一个新颖的伪双层优化方案，我们确定了蛋白质语言模型中的顺序信息与特殊设计的 GNN 模型中的结构信息之间的关系。几个监督式下游任务的实验验证了我们所提出方法的有效性。该方法的代码可在 \url{https://github.com/GGchen1997/STEPS_Bioinformatics} 上找到。

0

相关内容

结构感知

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

专知会员服务

10+阅读 · 2022年10月17日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

专知会员服务

29+阅读 · 2022年8月28日

结构感知的蛋白质预训练

结构感知的蛋白质预训练

专知会员服务

4+阅读 · 2022年8月28日

基于几何结构预训练的蛋白质表征学习

基于几何结构预训练的蛋白质表征学习

专知会员服务

15+阅读 · 2022年8月21日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

专知会员服务

18+阅读 · 2022年3月28日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

专知

1+阅读 · 2022年8月28日

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

PaperWeekly

1+阅读 · 2022年7月27日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

解读自监督学习(Self-Supervised Learning)几篇相关paper

解读自监督学习(Self-Supervised Learning)几篇相关paper

CVer

25+阅读 · 2020年2月21日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

面向不平衡分类任务的主动学习方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于氨基酸序列协同进化编码的蛋白质热点残基预测

国家自然科学基金

1+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

基于高维数据特征提取的蛋白质二级结构预测

国家自然科学基金

1+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

基于文本中关系相似性的蛋白质交互作用自动识别研究

国家自然科学基金

1+阅读 · 2012年12月31日

家蚕贮藏蛋白Arylphorin结构解析及分子降解机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

福氏志贺氏菌HtrA蛋白功能研究

国家自然科学基金

0+阅读 · 2011年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

TR3相互作用新蛋白机理研究

国家自然科学基金

1+阅读 · 2008年12月31日

UMSE: Unified Multi-scenario Summarization Evaluation

Arxiv

0+阅读 · 2023年5月26日

Self-supervised On-device Federated Learning from Unlabeled Streams

Arxiv

0+阅读 · 2023年5月25日

Inverse Preference Learning: Preference-based RL without a Reward Function

Arxiv

0+阅读 · 2023年5月24日

Self-Supervised Learning for Point Clouds Data: A Survey

Arxiv

0+阅读 · 2023年5月24日

Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning

Arxiv

11+阅读 · 2023年3月10日

Pretraining in Deep Reinforcement Learning: A Survey

Arxiv

21+阅读 · 2022年11月8日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

Graph Self-Supervised Learning: A Survey

Arxiv

15+阅读 · 2021年8月5日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Deep Graph Structure Learning for Robust Representations: A Survey

Arxiv

21+阅读 · 2021年3月4日

VIP会员

文章信息

相关主题

蛋白质语言模型

相关VIP内容

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

专知会员服务

10+阅读 · 2022年10月17日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

专知会员服务

29+阅读 · 2022年8月28日

结构感知的蛋白质预训练

结构感知的蛋白质预训练

专知会员服务

4+阅读 · 2022年8月28日

基于几何结构预训练的蛋白质表征学习

基于几何结构预训练的蛋白质表征学习

专知会员服务

15+阅读 · 2022年8月21日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

【WWW2022】图上的聚类感知的监督对比学习，ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs

专知会员服务

18+阅读 · 2022年3月28日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

【KDD2022】弱监督图神经网络：标签结构联合预测解决数据缺失问题

专知

1+阅读 · 2022年8月28日

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

PaperWeekly

1+阅读 · 2022年7月27日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

解读自监督学习(Self-Supervised Learning)几篇相关paper

解读自监督学习(Self-Supervised Learning)几篇相关paper

CVer

25+阅读 · 2020年2月21日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

相关论文

UMSE: Unified Multi-scenario Summarization Evaluation

Arxiv

0+阅读 · 2023年5月26日

Self-supervised On-device Federated Learning from Unlabeled Streams

Arxiv

0+阅读 · 2023年5月25日

Inverse Preference Learning: Preference-based RL without a Reward Function

Arxiv

0+阅读 · 2023年5月24日

Self-Supervised Learning for Point Clouds Data: A Survey

Arxiv

0+阅读 · 2023年5月24日

Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning

Arxiv

11+阅读 · 2023年3月10日

Pretraining in Deep Reinforcement Learning: A Survey

Arxiv

21+阅读 · 2022年11月8日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

Graph Self-Supervised Learning: A Survey

Arxiv

15+阅读 · 2021年8月5日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Deep Graph Structure Learning for Robust Representations: A Survey

Arxiv

21+阅读 · 2021年3月4日

相关基金

面向不平衡分类任务的主动学习方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于氨基酸序列协同进化编码的蛋白质热点残基预测

国家自然科学基金

1+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

基于高维数据特征提取的蛋白质二级结构预测

国家自然科学基金

1+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

基于文本中关系相似性的蛋白质交互作用自动识别研究

国家自然科学基金

1+阅读 · 2012年12月31日

家蚕贮藏蛋白Arylphorin结构解析及分子降解机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

福氏志贺氏菌HtrA蛋白功能研究

国家自然科学基金

0+阅读 · 2011年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

TR3相互作用新蛋白机理研究

国家自然科学基金

1+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员