【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

2020 年 7 月 15 日 专知

史晨策1, 徐民凯2, 郭宏裕3, 张铭1, 唐建4


1北京大学计算机科学技术系

2上海交通大学

3加拿大国家研究委员会

4魁北克学习算法研究院Mila

 

论文网址:https://arxiv.org/abs/2003.12725


  

摘要


新药发现(Drug Discovery)领域中的一个基础问题是预测目标分子的合成路线,即逆合成预测(Retrosynthesis Prediction)。现有的方法大多将给定的目标分子(产物)与许多化学反应模版匹配,从而预测可能的反应物。然而,模版匹配耗费大量的算力,并且这些方法在新数据集上的泛化能力也欠佳。本文提出了一种名为G2Gs的不依赖化学反应模版的方法。G2Gs通过一系列图变换,将产物分子转换(或称为翻译)到反应物分子。G2Gs首先通过一个反应中心预测模块,将产物分子分解为多个合成子。然后它通过一个变分图翻译模块,将每个合成子转换到最终的反应物分子。实验结果表明,本文提出的方法的性能远优于那些不依赖反应模版的方法。并且,G2Gs的性能与基于模版的方法相近,但它不依赖任何领域知识,也有更好的可扩展性。

 

本文第一作者史晨策是北大计算机科学技术系2016级本科生,也是第一届图灵班学生,获得北京大学信息科学技术学院“十佳”优秀本科毕业论文奖,已被MILA唐建教授录为研究生

 

一、 研究背景与动机


逆合成预测旨在预测可以合成给定化学产物的反应物分子集合,它是计算化学和新药发现领域中的一个基础任务。因为化学分子空间是离散且巨大的,这个问题非常具有挑战性。近几十年来,人们一直尝试用计算机技术来辅助这个任务。近年来,随着图表示学习技术的发展,基于机器学习算法来解决逆合成预测问题成为了机器学习领域的研究热点。

 

 

1. 逆合成预测示意图

 

现有的关于逆合成分析的机器学习算法主要有两类:基于反应模版的方法和不依赖反应模版的方法。前者将目标分子与许多反应模版进行匹配,每个反应模版定义了一系列类似的化学反应的子图特征。虽然基于模版的方法有较好的可解释性,但是它们需要昂贵的子图匹配,并且一旦匹配失败,则模型不能给出任何的预测。


后者将逆合成预测当作是一个序列到序列(sequence-to-sequence)问题,它们将分子表示成字符串并利用机器翻译中的经典模型(如Transformer)将产物分子的字符串表示翻译到反应物分子的字符串表示。然而,分子的字符串表示往往不能有效地刻画分子中各原子之间的复杂关系,这类方法的预测结果也因此不尽如人意。

 

为了克服以上缺点,本文旨在设计一种不依赖反应模版的逆合成预测模型,同时它应将分子表示为图结构数据。本文的动机如下:(1)在化学反应中,只有一部分基团发生了变化,大部分基团则保持不变。现有的方法大多从头开始生成反应物,本文将尽可能利用那些保持不变的基团的信息。(2)有机反应的机理可由代表电子流动的箭头来表示,每个箭头表示一个键的断裂或形成,本文提出的模型将隐式地模拟此过程。基于以上观察,本文提出了G2GsGraph to Graphs)算法。

 

二、 G2Gs模型介绍


下面,本文将介绍G2Gs的模型结构。G2Gs是一个新颖的不依赖反应模版的方法,它将每个有机分子表示成一张分子图,并将逆合成预测看作是从产物图到反应物图的翻译过程。准确地说,本文首先使用一个图神经网络来估计分子中每个原子对间的反应活性,超过某一阈值且活性最高的原子对被识别为反应中心。然后G2Gs将反应中心断裂,从而将产物分子断裂成多个合成子。最后,基于这些合成子,G2Gs通过一系列图翻译来生成反应物。G2Gs的整体框架如图2所示。

 

2. G2Gs模型结构

 

G2Gs的第一个模块是反应中心鉴别模块。一个原子对(ij)被称为是一个反应中心若:(1)产物中原子i和原子j之间有边。(2)反应物中原子i和原子j之间没有边。因为数据集中每个化学反应的产物和反应物中的原子都是一一对应的,我们可以很容易地通过比较产物和反应物来获得每个化学反应的反应中心。给定目标分子,G2Gs首先利用图神经网络来获得分子的低维表示,并利用边的嵌入表示来估计每个原子对的反应活性。然后G2Gs将反应活性最高的原子对作为反应中心,将其断裂,从而将目标分子分割成多个合成子。该模块将一对多的图翻译任务转换成了多个一对一的翻译任务,从而降低了问题的难度。

 


图3:反应中心鉴别模块

 

G2Gs的第二个模块是变分图翻译模块,其目的是将每个合成子翻译到最终的反应物。G2Gs将该过程看作是马尔可夫决策过程,它将当前子图视为当前的状态,并依次决定要采取何种动作,例如添加一个原子或一条边。值得一提的是,两个同样的合成子可能会被翻译成不同的反应物,为了鼓励模型生成多样的预测,本文在该模块中加入了一个隐变量来刻画这种不确定性。具体地说,该模块的每个决策包含四个动作:选取第一个点,选取第二个点,选取两个点之间边的类型,判断翻译过程是否中止。该模块框架图如下:


图4:变分图翻译模块

 

 

三、 实验分析


为了验证G2Gs的性能,本文在标准数据集USPTO-50K上进行了实验,它包含5万个原子对应的化学反应。本文采用top-k字符串精确匹配作为评估指标,即将预测的反应物的字符串表示与Ground Truth的字符串表示进行比较。本文在反应类型已知和反应类型未知两种情形下比较了各模型的性能,实验结果如下表所示。

 

1.反应类型已知情况下各模型的性能对比


表2反应类型未知情况下各模型的性能对比

  

 

结果表明,和不依赖模版的方法相比,G2Gs总是大幅优于这些基准模型。和基于模版的方法相比,本文的G2Gs接近或者优于当前最好的模型GLN的性能。

 

为了让读者对G2Gs有更直观的理解,本文给出了几组预测的可视化。图5展示了G2Gs预测准确的几个样例。这些反应所蕴含的反应模版如图5底部所示。图6展示了模型预测错误的一个案例。然而,这并不意味着本文的模型在这个案例上没能成功地预测一个可行的合成路线。这是因为一个分子往往可以通过多种方式合成,而数据集中的标签并不一定是唯一的方案。为了验证这个猜想,本文使用了一个前向反应预测模型。这个模型把G2Gs的预测结果(反应物)当作输入,并预测该反应的产物。如图6底部所示,该模型预测的结果正是逆合成任务的输入,这表明,G2Gs提供的合成路线的确可能是正确的。

 

 

 图5: 几个预测正确的案例。

 

图6:一个预测错误的案例

 

四、 总结与展望


本文将逆合成预测任务看作是一个图到图的翻译任务并提出了一种不依赖反应模版的方法。另外,我们设计了一种变分图翻译模块,它可以有效地刻画预测过程中的不确定性,并生成多样的图翻译结果。本文通过实验证明了提出的方法的优良性能。本文的方法不需要任何领域知识并且在大数据集上的扩展性非常好,这使它在真实应用场景中非常有前景。未来,作者计划将G2Gs扩展到可支持端到端训练的形式,并且将其应用到多步逆合成预测任务上。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“G2GS” 可以获取《【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
9

相关内容

【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
16+阅读 · 2020年8月18日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
动态记忆网络:向通用NLP更近一步
AI前线
4+阅读 · 2019年5月16日
已删除
将门创投
11+阅读 · 2019年4月26日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
Learning Discriminative Model Prediction for Tracking
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
6+阅读 · 2018年6月20日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
相关论文
Learning Discriminative Model Prediction for Tracking
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
6+阅读 · 2018年6月20日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员