ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练 - 专知VIP

会员服务 ·

10

预训练 · 蛋白质预训练 · 基因知识图谱 · 知识图谱 · 论文 ·

2022 年 2 月 20 日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，预训练模型以强大的算法效果，席卷了自然语言处理为代表的各大AI榜单与测试数据集。与自然语言类似，蛋白质的一级结构具有序列特性，这为将语言预训练模型引入蛋白质表示提供了有利条件。然而，蛋白质本质上不同于自然语言文本，其包含了大量预训练目标较难习得的生物学知识。事实上，人类科学家已经积累了海量的关于蛋白质结构功能的生物学知识。那么如何利用这些知识促进蛋白质预训练呢？本文将介绍被ICLR2022录用的新工作：OntoProtein，其提出一种新颖的融入知识图谱的蛋白质预训练方法。

蛋白质是控制生物和生命本身的基本大分子，对蛋白质的研究有助于理解人类健康和发展疾病疗法。蛋白质包含一级结构，二级结构和三级结构，其中一级结构与语言具有相似的序列特性。受到自然语言处理预训练模型的启发，诸多蛋白质预训练模型和工具被提出，包括MSA Transformer[1]、ProtTrans[2]、悟道 · 文溯[3]、百度的PaddleHelix等。大规模无监督蛋白质预训练甚至可以从训练语料中习得一定程度的蛋白质结构和功能。然而，蛋白质本质上不同于自然语言文本，其包含了诸多生物学特有的知识，较难直接通过预训练目标习得，且会受到数据分布影响低频长尾的蛋白质表示。为了解决这些问题，我们利用人类科学家积累的关于蛋白质结构功能的海量生物知识，首次提出融合知识图谱的蛋白质预训练方法。下面首先介绍知识图谱构建的方法。

当下蓬勃兴起的 AI for Science 正在促使以数据驱动的开普勒范式和以第一性原理驱动的牛顿范式的深度融合。基于“数据与知识双轮驱动”的学术思想，我们在本文中首次提出了融合知识图谱的蛋白质预训练方法OntoProtein，并在多个下游任务中验证了模型的效果。在未来，我们将维护好OntoProtein以供更多学者使用，并计划探索融合同源序列比对的知识图谱增强预训练方法以实现更优性能。

成为VIP会员查看完整内容

29

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

29+阅读 · 2021年8月5日

【ICLR2021】常识人工智能，77页ppt

【ICLR2021】常识人工智能，77页ppt

专知会员服务

80+阅读 · 2021年5月11日

【WWW2021】基于知识嵌入的图卷积网络

专知会员服务

69+阅读 · 2021年4月27日

【WWW2021】实体自适应语义依赖图立场检测

专知会员服务

22+阅读 · 2021年4月15日

MIT《图神经网络的任务结构与泛化》，22页ppt

MIT《图神经网络的任务结构与泛化》，22页ppt

专知会员服务

24+阅读 · 2021年2月28日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

KDD20 | 面向时态交互网络的数据驱动图生成模型

专知会员服务

24+阅读 · 2020年9月25日

【干货书】深度学习生命科学：基因组学、药物发现，238页pdf

【干货书】深度学习生命科学：基因组学、药物发现，238页pdf

专知会员服务

200+阅读 · 2020年3月18日

知识图谱本体结构构建论文合集

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

生命科学的“登月计划”！Science封面：20年后，人类基因组计划终于完整了

生命科学的“登月计划”！Science封面：20年后，人类基因组计划终于完整了

大数据文摘

0+阅读 · 2022年4月5日

Science封面：20年后，人类基因组计划终于完整了

Science封面：20年后，人类基因组计划终于完整了

学术头条

0+阅读 · 2022年4月2日

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

开放知识图谱

2+阅读 · 2022年3月23日

多模态学习加持，蛋白质预训练模型S2F准确预测PPI

多模态学习加持，蛋白质预训练模型S2F准确预测PPI

机器之心

1+阅读 · 2021年12月27日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于生物医学文献和领域本体的蛋白质复合物预测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

癌症基因组测序分析鉴定驱动基因及其路径的方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

拟南芥综合生物信息学在线服务平台构建

国家自然科学基金

1+阅读 · 2013年12月31日

高通量RNA-Seq测序数据的基因表达水平建模研究

国家自然科学基金

0+阅读 · 2011年12月31日

微纳米生物学基因表达相关过程的建模与控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于sEMG和FES的下肢康复机器人生物反馈控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

认知模型驱动的海量中医医案知识获取技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于贝叶斯本体的Web知识发现研究

国家自然科学基金

0+阅读 · 2009年12月31日

Modeling and Executing Production Processes with Capabilities and Skills using Ontologies and BPMN

Modeling and Executing Production Processes with Capabilities and Skills using Ontologies and BPMN

Arxiv

0+阅读 · 2022年4月20日

Pre-training of Deep Protein Models with Molecular Dynamics Simulations for Drug Binding

Arxiv

1+阅读 · 2022年4月19日

Semantic-based Data Augmentation for Math Word Problems

Arxiv

0+阅读 · 2022年4月18日

A Variational Approach to Bayesian Phylogenetic Inference

Arxiv

0+阅读 · 2022年4月16日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Approaches for Enriching and Improving Textual Knowledge Bases

Arxiv

15+阅读 · 2018年4月20日

VIP会员

相关主题

蛋白质预训练

基因知识图谱

相关VIP内容

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

【ACL2021】基于跨模态对比学习的统一模态理解与生成方法

专知会员服务

29+阅读 · 2021年8月5日

【ICLR2021】常识人工智能，77页ppt

【ICLR2021】常识人工智能，77页ppt

专知会员服务

80+阅读 · 2021年5月11日

【WWW2021】基于知识嵌入的图卷积网络

专知会员服务

69+阅读 · 2021年4月27日

【WWW2021】实体自适应语义依赖图立场检测

专知会员服务

22+阅读 · 2021年4月15日

MIT《图神经网络的任务结构与泛化》，22页ppt

MIT《图神经网络的任务结构与泛化》，22页ppt

专知会员服务

24+阅读 · 2021年2月28日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

KDD20 | 面向时态交互网络的数据驱动图生成模型

专知会员服务

24+阅读 · 2020年9月25日

【干货书】深度学习生命科学：基因组学、药物发现，238页pdf

【干货书】深度学习生命科学：基因组学、药物发现，238页pdf

专知会员服务

200+阅读 · 2020年3月18日

知识图谱本体结构构建论文合集

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

人工智能时代背景下的未来海战

相关资讯

生命科学的“登月计划”！Science封面：20年后，人类基因组计划终于完整了

生命科学的“登月计划”！Science封面：20年后，人类基因组计划终于完整了

大数据文摘

0+阅读 · 2022年4月5日

Science封面：20年后，人类基因组计划终于完整了

Science封面：20年后，人类基因组计划终于完整了

学术头条

0+阅读 · 2022年4月2日

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

开放知识图谱

2+阅读 · 2022年3月23日

多模态学习加持，蛋白质预训练模型S2F准确预测PPI

多模态学习加持，蛋白质预训练模型S2F准确预测PPI

机器之心

1+阅读 · 2021年12月27日

相关基金

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于生物医学文献和领域本体的蛋白质复合物预测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

癌症基因组测序分析鉴定驱动基因及其路径的方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

拟南芥综合生物信息学在线服务平台构建

国家自然科学基金

1+阅读 · 2013年12月31日

高通量RNA-Seq测序数据的基因表达水平建模研究

国家自然科学基金

0+阅读 · 2011年12月31日

微纳米生物学基因表达相关过程的建模与控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于sEMG和FES的下肢康复机器人生物反馈控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

认知模型驱动的海量中医医案知识获取技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于贝叶斯本体的Web知识发现研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Modeling and Executing Production Processes with Capabilities and Skills using Ontologies and BPMN

Modeling and Executing Production Processes with Capabilities and Skills using Ontologies and BPMN

Arxiv

0+阅读 · 2022年4月20日

Pre-training of Deep Protein Models with Molecular Dynamics Simulations for Drug Binding

Arxiv

1+阅读 · 2022年4月19日

Semantic-based Data Augmentation for Math Word Problems

Arxiv

0+阅读 · 2022年4月18日

A Variational Approach to Bayesian Phylogenetic Inference

Arxiv

0+阅读 · 2022年4月16日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Approaches for Enriching and Improving Textual Knowledge Bases

Arxiv

15+阅读 · 2018年4月20日

微信扫码咨询专知VIP会员