一种基于广义模板的图神经网络，用于准确的有机反应性预测

2022 年 10 月 7 日 机器之心

编辑 | 白菜叶

化学反应性的可靠预测仍属于知识渊博的合成化学家。通过使用人工智能使这一过程自动化可以加速未来数字实验室的合成设计。虽然几种机器学习方法已显示出可喜的结果，但大多数当前模型都偏离了人类化学家基于电子变化分析和预测反应的方式。

在这里，韩国科学技术院（KAIST）的研究人员提出了一种化学驱动的图神经网络，称为 LocalTransform，它基于广义反应模板学习有机反应性，以描述反应物和产物之间电子配置的净变化。

所提出的概念大大减少了反应规则的数量，并展示了最先进的产品预测准确性。除了通用反应模板的内置可解释性外，该模型的高分准确度相关性允许用户评估机器预测的不确定性。

该研究以「A generalized-template-based graph neural network for accurate organic reactivity prediction」为题，于 2022 年 9 月 15 日发布在《Nature Machine Intelligence》。

预测有机反应结果是化学中的一个基本问题。基于有机化学的成熟直觉，化学家现在能够设计实验来制造用于不同目的的新分子。但是，它需要经验丰富的专业化学家来准确预测化学反应的结果。为了进一步帮助有机化学家并在数字化学时代实现全自动发现，智能机器智能可以准确预测有机反应的结果，可以大大加快新分子的设计过程。

最近，已经提出了几种基于机器学习的方法来预测有机反应结果，但仍然需要改进的反应预测模型才能达到足够的准确性，与普通有机化学家相当或更好。特别是，由于几种基于模板的方法的覆盖范围和可扩展性问题，科学家们提出了使用基于序列的模型或基于图的模型的无模板方法。

无模板方法中使用的方法可以进一步分为基于序列和基于图的方法。在基于序列的方法中，由 Schwaller 团队开发的 Molecular Transformer 及其变体被开发用于通过使用语言翻译模型将给定反应物的简化分子输入线输入系统（SMILES）翻译成产物。

在基于图的方法中，ELECTRO（an electron path prediction model）和 MEGAN（Molecule Edit Graph Attention Network）以自回归方式预测来自反应物的产物，而 WLDN（Weisfeiler-Lehman Difference Network）、Symbolic 和 NERF（Non-autoregressive Electron Redistribution Framework）通过直接预测产物中键或电子的最终状态来预测从给定反应物中获得的产物。

虽然目前大多数高效反应预测方法都是无模板的，但是之前基于模板的方法通常性能较低；这并不是因为使用了从数据集中提取的预定义反应规则，而是因为在模板中包含了太多详细信息，因此提取的模板的覆盖率和可伸缩性较低。

尽管之前这些方法在公共反应数据集上表现出一定的准确性，但当前最先进的方法仍然以机械方式预测有机反应的结果，要么翻译化学语言，要么按顺序编辑分子图。相比之下，知识渊博的化学家通常通过识别反应中心并应用所学化学知识（例如命名反应）来预测有机反应性来预测反应产物。

在这里，KAIST 的研究人员设计了广义反应模板（GRT），一种仅描述基于原子映射的反应前后原子构型的局部变化但没有特定原子类型或官能团信息的反应模板，并提出一种名为 LocalTransform 的基于图的机器智能来预测反应产物。