多模态学习加持,蛋白质预训练模型S2F准确预测PPI

2021 年 12 月 27 日 机器之心


蛋白质-蛋白质相互作用(PPI)在许多生物过程中都有着重要作用。在这些过程中,两个或多个蛋白质物理地结合在一起以实现其功能。建立准确的 PPI 预测模型在许多生物医学应用中都有十分重要的意义,例如疫苗设计、大分子以及多肽类药物发现等问题中都涉及蛋白质相互作用。
 
预训练蛋白质模型来学习有效的表征对预测 PPI 来说至关重要,目前大多数的蛋白预训练模型是基于序列的,采用自然语言处理中使用的语言模型来处理氨基酸序列。
 
PPI 问题和蛋白的结构与功能密切相关。然而,单独使用蛋白质序列很难描述蛋白质的结构和功能。这从蛋白质折叠这个问题的难度就可以看出,即使 DeepMind 提出的 AlphaFold 也需要借助多序列比对(MSA)的信息才能取得比较好的结果。

为了解决这个问题,百度借鉴自然语言处理和计算机视觉中的多模态学习,提出了一个包含三个模态:序列(Sequence)、结构(Structure)和功能(Function)的蛋白质多模态预训练模型 S2F。他们使用重原子点云的拓扑复合物来编码结构特征,这使得模型不仅可以学习骨架的结构信息,还可以学习侧链的结构信息。此外,此模型还结合了从文献或人工注释中提取的蛋白质功能描述的知识。

实验表明,S2F 学习的蛋白质嵌入在各种 PPI 任务中取得了良好的表现,包括跨物种 PPI、抗体-抗原亲和力预测、SARS-CoV-2 的抗体中和预测以及突变驱动的蛋白结合亲和力变化预测。

该工作即将在 PaddleHelix 开源,供大家使用。
  • 项目链接:https://github.com/PaddlePaddle/PaddleHelix

  • 论文链接:https://arxiv.org/abs/2112.04814


12月28日19:00-20:00,机器之心最新一期线上分享邀请到百度自然语言处理部资深研发工程师紫荆带来这一工作的详细解读。



分享主题:多模态蛋白预训练模型S2F,及其在基于序列的蛋白质相互作用预测中的应用

分享摘要:

  • 蛋白质相互作用简介

  • 蛋白质相互作用预测和挑战

  • 蛋白质多模态机器学习:多模态蛋白预训练模型S2F

  • S2F用于蛋白质相互作用预测的实验效果

分享嘉宾:紫荆,本科毕业于清华大学,曾就读于英国帝国理工学院,任玛丽居里研究员并获得博士学位。现任百度自然语言处理部资深研发工程师,螺旋桨PaddleHelix核心研发,专注于AI和药物研发领域,研究方向包括虚拟筛选,蛋白质相互作用,蛋白质结构预测等。

分享时间:北京时间12月28日19:00-20:00

直播间:关注机动组视频号,北京时间12月28日开播。

交流群: 本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「S2F」即可加入。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

  • 点击阅读原文,访问机动组官网,观看往期回顾

  • 关注机动组服务号,获取每周直播预告

登录查看更多
1

相关内容

ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
28+阅读 · 2022年2月20日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
20+阅读 · 2021年4月15日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
专知会员服务
37+阅读 · 2020年10月15日
最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
专知会员服务
221+阅读 · 2020年5月6日
直播预告 | 大规模图机器学习框架&算法
图与推荐
0+阅读 · 2021年10月9日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
Arxiv
38+阅读 · 2020年12月2日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
VIP会员
相关VIP内容
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
28+阅读 · 2022年2月20日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
20+阅读 · 2021年4月15日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
专知会员服务
37+阅读 · 2020年10月15日
最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
专知会员服务
221+阅读 · 2020年5月6日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员