多模态学习加持，蛋白质预训练模型S2F准确预测PPI - 专知

会员服务 ·

0

多模态学习加持，蛋白质预训练模型S2F准确预测PPI

2021 年 12 月 27 日 机器之心

蛋白质-蛋白质相互作用（PPI）在许多生物过程中都有着重要作用。在这些过程中，两个或多个蛋白质物理地结合在一起以实现其功能。建立准确的 PPI 预测模型在许多生物医学应用中都有十分重要的意义，例如疫苗设计、大分子以及多肽类药物发现等问题中都涉及蛋白质相互作用。

预训练蛋白质模型来学习有效的表征对预测 PPI 来说至关重要，目前大多数的蛋白预训练模型是基于序列的，采用自然语言处理中使用的语言模型来处理氨基酸序列。

PPI 问题和蛋白的结构与功能密切相关。然而，单独使用蛋白质序列很难描述蛋白质的结构和功能。这从蛋白质折叠这个问题的难度就可以看出，即使 DeepMind 提出的 AlphaFold 也需要借助多序列比对（MSA）的信息才能取得比较好的结果。

为了解决这个问题，百度借鉴自然语言处理和计算机视觉中的多模态学习，提出了一个包含三个模态：序列（Sequence）、结构（Structure）和功能（Function）的蛋白质多模态预训练模型 S2F。他们使用重原子点云的拓扑复合物来编码结构特征，这使得模型不仅可以学习骨架的结构信息，还可以学习侧链的结构信息。此外，此模型还结合了从文献或人工注释中提取的蛋白质功能描述的知识。

实验表明，S2F 学习的蛋白质嵌入在各种 PPI 任务中取得了良好的表现，包括跨物种 PPI、抗体-抗原亲和力预测、SARS-CoV-2 的抗体中和预测以及突变驱动的蛋白结合亲和力变化预测。

该工作即将在 PaddleHelix 开源，供大家使用。

项目链接：https://github.com/PaddlePaddle/PaddleHelix。
论文链接：https://arxiv.org/abs/2112.04814

12月28日19:00-20:00，机器之心最新一期线上分享邀请到百度自然语言处理部资深研发工程师紫荆带来这一工作的详细解读。

分享主题：多模态蛋白预训练模型S2F，及其在基于序列的蛋白质相互作用预测中的应用

分享摘要：

蛋白质相互作用简介
蛋白质相互作用预测和挑战
蛋白质多模态机器学习：多模态蛋白预训练模型S2F
S2F用于蛋白质相互作用预测的实验效果

分享嘉宾：紫荆，本科毕业于清华大学，曾就读于英国帝国理工学院，任玛丽居里研究员并获得博士学位。现任百度自然语言处理部资深研发工程师，螺旋桨PaddleHelix核心研发，专注于AI和药物研发领域，研究方向包括虚拟筛选，蛋白质相互作用，蛋白质结构预测等。

分享时间：北京时间12月28日19:00-20:00

直播间：关注机动组视频号，北京时间12月28日开播。

交流群： 本次直播设有 QA 环节，欢迎加入本次直播交流群探讨交流。

如群已超出人数限制，请添加机器之心小助手：syncedai2、syncedai3、syncedai4 或 syncedai5，备注「S2F」即可加入。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

点击阅读原文，访问机动组官网，观看往期回顾；
关注机动组服务号，获取每周直播预告。

登录查看更多

1

相关内容

蛋白质预训练

蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

【KDD2021】TUTA: 通用表格预训练的树结构Transformer

专知会员服务

25+阅读 · 2021年8月22日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

多模态学习方法综述

专知会员服务

235+阅读 · 2020年5月6日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

开放知识图谱

2+阅读 · 2022年3月23日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知

1+阅读 · 2022年2月20日

快80~500倍！人工智能快速预测两种蛋白质的结构互作方式

快80~500倍！人工智能快速预测两种蛋白质的结构互作方式

机器之心

1+阅读 · 2022年2月19日

直播预告 | 大规模图机器学习框架&算法

直播预告 | 大规模图机器学习框架&算法

图与推荐

0+阅读 · 2021年10月9日

基于多源信息融合的蛋白质亚细胞定位预测算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

面向结构预测的蛋白质分子力场发展

国家自然科学基金

0+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

蛋白质折叠高效模拟方法及折叠病致病机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

认知模型驱动的海量中医医案知识获取技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

Nadaraya-Watson Estimator for I.I.D. Paths of Diffusion Processes

Arxiv

0+阅读 · 2022年4月19日

Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full Attention Network

Arxiv

1+阅读 · 2022年4月17日

Data Augmentation for Graph Neural Networks

Arxiv

38+阅读 · 2020年12月2日

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Arxiv

16+阅读 · 2020年8月10日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

VIP会员

相关主题

蛋白质预训练

多模态学习

预训练模型

相关VIP内容

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

【KDD2021】TUTA: 通用表格预训练的树结构Transformer

专知会员服务

25+阅读 · 2021年8月22日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

多模态学习方法综述

专知会员服务

235+阅读 · 2020年5月6日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

论文浅尝 - ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

开放知识图谱

2+阅读 · 2022年3月23日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知

1+阅读 · 2022年2月20日

快80~500倍！人工智能快速预测两种蛋白质的结构互作方式

快80~500倍！人工智能快速预测两种蛋白质的结构互作方式

机器之心

1+阅读 · 2022年2月19日

直播预告 | 大规模图机器学习框架&算法

直播预告 | 大规模图机器学习框架&算法

图与推荐

0+阅读 · 2021年10月9日

相关基金

基于多源信息融合的蛋白质亚细胞定位预测算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

面向结构预测的蛋白质分子力场发展

国家自然科学基金

0+阅读 · 2012年12月31日

自相互作用蛋白质的系统研究和预测

国家自然科学基金

2+阅读 · 2012年12月31日

蛋白质折叠高效模拟方法及折叠病致病机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

认知模型驱动的海量中医医案知识获取技术研究

国家自然科学基金

1+阅读 · 2010年12月31日

相关论文

Nadaraya-Watson Estimator for I.I.D. Paths of Diffusion Processes

Arxiv

0+阅读 · 2022年4月19日

Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full Attention Network

Arxiv

1+阅读 · 2022年4月17日

Data Augmentation for Graph Neural Networks

Arxiv

38+阅读 · 2020年12月2日

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Beyond Lexical: A Semantic Retrieval Framework for Textual SearchEngine

Arxiv

16+阅读 · 2020年8月10日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

大家都在搜

大型语言模型

蓝牙安全攻防

太合音乐上市

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员