本文介绍韩国大田 KAIST 化学与生物分子工程系与人工智能研究生院的Yousung Jung团队2022年9月15日发表在Nature Machine Intelligence的研究成果A generalized-template-based graph neural network for accurate organic reactivity prediction。Yousung Jung团队提出了一个化学驱动的图神经网络,称为LocalTransform,它基于广义的反应模板学习有机反应性,以描述反应物和产物之间的电子构型的净变化。所提出的概念极大地减少了反应规则的数量,并表现出最先进的产物预测精度。除了广义反应模板的内在可解释性外,该模型的高分值-准确率相关性使用户可以评估机器预测的不确定性。
背景
预测有机反应产物是有机化学的一个基本问题。基于成熟有机化学知识,化学家现在能够设计实验来制造用于不同目的的新分子。但是,它需要经验丰富的专业化学家来准确预测化学反应的结果。为了进一步帮助有机化学家并在数字化学时代实现全自动发现,机器智能可以准确预测有机反应的产物,大大加快新分子的设计过程。最近,已经提出了几种基于机器学习的方法来预测有机反应产物,但仍然需要改进反应预测模型才能达到足够的准确性,与普通有机化学家相当或更好。由于几种基于模板的方法的覆盖范围和可扩展性问题,科学家们提出了使用基于序列的模型或基于图模型的无模板方法。尽管这些方法在公共反应数据集上表现出有希望的准确性,但当前最先进的方法仍然以机械方式预测有机反应的产物,要么翻译化学语言,要么按顺序编辑分子图。相比之下,知识渊博的化学家通常通过识别反应中心并应用所学化学知识来预测有机反应性来和预测反应产物。
研究人员设计了广义反应模板(GRT, generalized reaction template),一种仅描述基于原子映射的反应前后原子构型的局部变化但没有特定原子类型或官能团信息的反应模板,并提出了一个基于图机器智能的LocalTransform框架来预测反应产物。LocalTransform 通过识别反应中心以及要应用的 GRT 来预测反应产物。它通过全局注意力机制学习根据局部化学环境和选择性识别反应原子。最终反应转化由反应模板分类器预测,该分类器为预测的化学反应中心建议最可能的 GRT。
LocalTransform 在预测有机反应方面的三个重要突破: * GRT 在化学上是直观的和通用的。提取的 GRT 可以描述所有测试反应的 99.7%,而前 100 个最流行的反应模板可以描述所有训练反应的 94.6%,从而解决了以前基于模板的方法的覆盖率和可扩展性问题。 * 证明了 LocalTransform 有前景的 top-k 产物预测精度,与以前的基于图的方法相比有显著改进。 * 由于模型是一种基于分类的方法,具有很强的分数-准确性相关性,它使用户能够理解不确定性并信任机器预测。
研究结果
GRTs 受有机反应主要是电子重排过程的启发,研究人员在此推导出GRT,它描述了反应前后电子构型的净变化,而不包括任何特定的原子类型或官能团信息。
LocalTransform 基于提出的 GRT,研究人员开发了一个名为 LocalTransform 的图神经网络,通过识别反应中心和应用反应规则来预测反应产物。LocalTransform 的整体预测流程如图所示。LocalTransform 的反应产物预测包括七个步骤:(1)分子图构建,(2)局部消息传递,(3)全局原子注意力,(4)键特征收缩和反应池化,(5)全局键注意力,(6)AoT 分类,(7))AoT 排名和收集以及 (8))产物完成。
USPTO-480k 反应数据集的结果
表1显示了 USPTO-480k 数据集上混合预测场景中 top-k 精确匹配准确度的结果。LocalTransform 显示了所有 top-k 准确度值的有希望的预测结果。更具体地说,LocalTransform 在 top-1 预测 (90.8%) 中的 top-1 准确度比当前最好的基于图形的方法高出 4.5%。LocalTransform 的性能也比两种流行的基于序列的模型略高 0.2-2.1%。研究人员预计类似的增强训练或预训练也会提高 LocalTransform 的准确性,但会大幅增加训练的计算成本。
与人类专家的比较 遵循以前工作中使用的基准,将 top-1 模型预测与人类专家进行比较,这是 Coley 等人进行的扩展实验。通过使用各种稀有反应模板从测试集中获取80个反应。LocalTransform与WLDN、Molecular Transformer和人类专家的预测结果如图所示。LocalTransform 正确预测了 80 个反应中的 75 个,并且在所有反应模板稀有箱中具有最佳准确度。同样,LocalTransform 在所有稀有箱中显示出最佳预测精度。对于具有最稀有 GRT 的三个反应,WLDN 和人类专家都未能正确预测任何反应结果,而 Molecular Transformer 和 LocalTransform 正确预测了三个反应中的两个。
结论
作者提出了一种新颖的机器智能方法LocalTransform,它通过识别反应中心和应用数据驱动的一般反应规则来预测有机反应性。反应规则被编码在所谓的GRT 中,GRT 基于从反应物到产物的电子构型的净变化,具有极大的灵活性和简单性。在 USPTO-480k 数据集上训练和评估的 LocalTransform 产生了有希望的 top-1 和 top-2 精确匹配准确度值,分别为 90.8% 和 94.8%。在人类基准集上,作者强调了 LocalTransform 在优于人类专家预测方面的卓越预测,展示了预测分数和预测准确性之间的高度相关性,这使用户能够理解不确定性并信任机器预测。研究人员的方法的准确性在很大程度上受到反应映射的质量以及数据集中反应的多样性和丰富性的限制。因此,期望未来可以通过使用更大的数据集和高质量的原子映射方法(如 Mappet 或 RXNMapper)来进一步改进模型。
参考资料 Chen, S., Jung, Y. A generalized-template-based graph neural network for accurate organic reactivity prediction. Nat Mach Intell (2022). https://doi.org/10.1038/s42256-022-00526-z