化学反应性的可靠预测仍属于知识渊博的合成化学家。通过使用人工智能使这一过程自动化可以加速未来数字实验室的合成设计。虽然几种机器学习方法已显示出可喜的结果,但大多数当前模型都偏离了人类化学家基于电子变化分析和预测反应的方式。
在这里,韩国科学技术院(KAIST)的研究人员提出了一种化学驱动的图神经网络,称为 LocalTransform,它基于广义反应模板学习有机反应性,以描述反应物和产物之间电子配置的净变化。
所提出的概念大大减少了反应规则的数量,并展示了最先进的产品预测准确性。除了通用反应模板的内置可解释性外,该模型的高分准确度相关性允许用户评估机器预测的不确定性。
该研究以「A generalized-template-based graph neural network for accurate organic reactivity prediction」为题,于 2022 年 9 月 15 日发布在《Nature Machine Intelligence》。
预测有机反应结果是化学中的一个基本问题。基于有机化学的成熟直觉,化学家现在能够设计实验来制造用于不同目的的新分子。但是,它需要经验丰富的专业化学家来准确预测化学反应的结果。为了进一步帮助有机化学家并在数字化学时代实现全自动发现,智能机器智能可以准确预测有机反应的结果,可以大大加快新分子的设计过程。
最近,已经提出了几种基于机器学习的方法来预测有机反应结果,但仍然需要改进的反应预测模型才能达到足够的准确性,与普通有机化学家相当或更好。特别是,由于几种基于模板的方法的覆盖范围和可扩展性问题,科学家们提出了使用基于序列的模型或基于图的模型的无模板方法。
无模板方法中使用的方法可以进一步分为基于序列和基于图的方法。在基于序列的方法中,由 Schwaller 团队开发的 Molecular Transformer 及其变体被开发用于通过使用语言翻译模型将给定反应物的简化分子输入线输入系统(SMILES)翻译成产物。
在基于图的方法中,ELECTRO(an electron path prediction model) 和 MEGAN(Molecule Edit Graph Attention Network)以自回归方式预测来自反应物的产物,而 WLDN(Weisfeiler-Lehman Difference Network)、Symbolic 和 NERF(Non-autoregressive Electron Redistribution Framework)通过直接预测产物中键或电子的最终状态来预测从给定反应物中获得的产物。
虽然目前大多数高效反应预测方法都是无模板的,但是之前基于模板的方法通常性能较低;这并不是因为使用了从数据集中提取的预定义反应规则,而是因为在模板中包含了太多详细信息,因此提取的模板的覆盖率和可伸缩性较低。
尽管之前这些方法在公共反应数据集上表现出一定的准确性,但当前最先进的方法仍然以机械方式预测有机反应的结果,要么翻译化学语言,要么按顺序编辑分子图。相比之下,知识渊博的化学家通常通过识别反应中心并应用所学化学知识(例如命名反应)来预测有机反应性来预测反应产物。
在这里,KAIST 的研究人员设计了广义反应模板(GRT),一种仅描述基于原子映射的反应前后原子构型的局部变化但没有特定原子类型或官能团信息的反应模板,并提出一种名为 LocalTransform 的基于图的机器智能来预测反应产物。
图示:GRT的提取过程和示例。(来源:论文)
LocalTransform 通过识别反应中心以及要应用的 GRT 来预测反应结果。它通过全局注意力机制学习根据局部化学环境和选择性识别反应原子。
最终反应转化由反应模板分类器预测,该分类器为预测的化学反应中心建议最可能的 GRT。LocalTransform 在预测有机反应性方面的三个重要突破:
1、提议的 GRT 在化学上是直观的和通用的。提取的 GRT 可以描述所有测试反应的 99.7%,而前 100 个最流行的反应模板可以描述所有训练反应的 94.6%,从而解决了以前基于模板的方法的覆盖率和可扩展性问题。
2、研究人员展示了 LocalTransform 有前景的 top-k 产品预测精度,与以前基于图的方法相比有显著改进。
3、由于该模型是一种基于分类的方法,具有很强的分数-准确度相关性,它使用户能够理解不确定性并信任机器的预测。
尽管该模型中的预测分数非常高,但对实验中几个「错误」预测示例的案例研究表明,有可能进一步检查这些数据以进行额外的管理。该方法的准确性在很大程度上受到反应映射的质量以及数据集中反应的多样性和丰富性的限制。
因此,研究人员期望未来可以通过使用更大的数据集和高质量的原子映射方法(如 Mappet 或 RXNMapper)来进一步改进模型。凭借 LocalTransform 的几个优点,研究人员设想如果在数据集中提供相应的元数据,该模型或可用于预测副产物和反应产率。
论文链接:https://www.nature.com/articles/s42256-022-00526-z
人工智能 × [ 生物 神经科学 数学 物理 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。