【ICLR2022】MIT最新论文《用于分子生成的数据高效图文法学习》，用图文法生成新分子，Data-Efficient Graph Grammar Learning for Molecular Generation

论文概述

麻省理工近期发表在ICLR2022上关于分子生成的文章:《Data-Efficient Graph Grammar Learning for Molecular Generation》。作者提出了一种将图文法构造与特定领域优化相结合的数据高效分子生成模型，能够从由分子图组成的小样本中学习归纳出图文法，然后基于图文法的生成规则生成得到新的分子。图文法包含不同大小（即高于原子水平）的子结构，文法的构造过程通过多种化学指标（分布统计、可合成性等）进行优化，且同时满足特定的化学约束。在三个小型聚合物数据集和一个大型聚合物数据集的实验证明了该方法的有效性，且能够以高成功率生成特定类别分子单体。该方法非常新颖且具有较好的解释性。

图 1：概述。给定要优化的分子和特定领域的指标，我们构建了一个图形语法，它可以作为一个生成模型。图文法构建过程通过优化度量来自动学习文法规则。

用图文法生成新分子

一种有效的机器学习方法使用化学知识来创建具有生产规则的可学习语法，以构建可合成的单体和聚合物。

化学工程师和材料科学家一直在寻找下一个革命性的材料、化学品和药物。机器学习方法的兴起正在加快发现过程，否则这可能需要数年时间。电气工程教授 Wojciech Matusik 说：“理想情况下，目标是在一些现有的化学样品上训练机器学习模型，然后让它生产尽可能多的具有可预测物理特性的同一类别的可制造分子”。“如果你拥有所有这些成分，你就可以构建具有最佳特性的新分子，并且你还知道如何合成它们。这就是该领域的人们想要实现的总体愿景”

然而，当前的技术，主要是深度学习，需要大量数据集来训练模型，并且许多特定类别的化学数据集包含少数示例化合物，限制了它们概括和生成可以在现实世界中创建物理分子的能力。

麻省理工学院和 IBM 的研究人员发表了一篇新论文，使用生成图模型在与其训练数据相同的化学类别中构建新的可合成分子，从而解决了这个问题。为此，他们将原子和化学键的形成视为一个图形，并开发了一种图形语法——一种用于单词排序的系统和结构的语言学类比——其中包含一系列构建分子的规则，例如单体和聚合物。使用从训练集中推断出的语法和产生式规则，该模型不仅可以对其示例进行逆向工程，还可以以系统和数据高效的方式创建新化合物。“我们基本上建立了一种用于创建分子的语言，”Matusik 说，“这种语法本质上是生成模型”。

分子结构可以被认为是图形中的符号表示——通过化学键（边）连接在一起的一串原子（节点）。在这种方法中，研究人员允许模型采用化学结构并将分子的子结构折叠到一个节点；这可能是通过键连接的两个原子，键合原子的短序列或原子环。重复执行此操作，创建生产规则，直到剩下一个节点。然后可以以相反的顺序应用规则和语法，从头开始重新创建训练集，或以不同的组合组合以产生相同化学类别的新分子。

在不久的将来，该团队计划解决扩大这种语法学习过程的问题，以便能够生成大图，以及生产和识别具有所需特性的化学品。

研究小组指出，在未来，研究人员看到了 DEG 方法的许多应用，因为它除了产生新的化学结构之外还具有适应性。图形是一种非常灵活的表示形式，许多实体都可以用这种形式进行符号化——例如机器人、车辆、建筑物和电子电路。“本质上，我们的目标是建立我们的语法，以便我们的图形表示可以广泛用于许多不同的领域，因为DEG 可以自动设计新颖的实体和结构”。

成为VIP会员查看完整内容