近年来,预训练模型以强大的算法效果,席卷了自然语言处理为代表的各大AI榜单与测试数据集。与自然语言类似,蛋白质的一级结构具有序列特性,这为将语言预训练模型引入蛋白质表示提供了有利条件。然而,蛋白质本质上不同于自然语言文本,其包含了大量预训练目标较难习得的生物学知识。事实上,人类科学家已经积累了海量的关于蛋白质结构功能的生物学知识。那么如何利用这些知识促进蛋白质预训练呢?本文将介绍被ICLR2022录用的新工作:OntoProtein,其提出一种新颖的融入知识图谱的蛋白质预训练方法。

蛋白质是控制生物和生命本身的基本大分子,对蛋白质的研究有助于理解人类健康和发展疾病疗法。蛋白质包含一级结构,二级结构和三级结构,其中一级结构与语言具有相似的序列特性。受到自然语言处理预训练模型的启发,诸多蛋白质预训练模型和工具被提出,包括MSA Transformer[1]、ProtTrans[2]、悟道 · 文溯[3]、百度的PaddleHelix等。大规模无监督蛋白质预训练甚至可以从训练语料中习得一定程度的蛋白质结构和功能。然而,蛋白质本质上不同于自然语言文本,其包含了诸多生物学特有的知识,较难直接通过预训练目标习得,且会受到数据分布影响低频长尾的蛋白质表示。为了解决这些问题,我们利用人类科学家积累的关于蛋白质结构功能的海量生物知识,首次提出融合知识图谱的蛋白质预训练方法。下面首先介绍知识图谱构建的方法。

当下蓬勃兴起的 AI for Science 正在促使以数据驱动的开普勒范式和以第一性原理驱动的牛顿范式的深度融合。基于“数据与知识双轮驱动”的学术思想,我们在本文中首次提出了融合知识图谱的蛋白质预训练方法OntoProtein,并在多个下游任务中验证了模型的效果。在未来,我们将维护好OntoProtein以供更多学者使用,并计划探索融合同源序列比对的知识图谱增强预训练方法以实现更优性能。

成为VIP会员查看完整内容
28

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
【ICLR2021】常识人工智能,77页ppt
专知会员服务
75+阅读 · 2021年5月11日
专知会员服务
68+阅读 · 2021年4月27日
专知会员服务
20+阅读 · 2021年4月15日
MIT《图神经网络的任务结构与泛化》,22页ppt
专知会员服务
23+阅读 · 2021年2月28日
专知会员服务
23+阅读 · 2020年9月25日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
Science封面:20年后,人类基因组计划终于完整了
多模态学习加持,蛋白质预训练模型S2F准确预测PPI
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
46+阅读 · 2021年10月4日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
26+阅读 · 2018年9月21日
VIP会员
相关VIP内容
【ICLR2021】常识人工智能,77页ppt
专知会员服务
75+阅读 · 2021年5月11日
专知会员服务
68+阅读 · 2021年4月27日
专知会员服务
20+阅读 · 2021年4月15日
MIT《图神经网络的任务结构与泛化》,22页ppt
专知会员服务
23+阅读 · 2021年2月28日
专知会员服务
23+阅读 · 2020年9月25日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
46+阅读 · 2021年10月4日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
26+阅读 · 2018年9月21日
微信扫码咨询专知VIP会员