在化学中,一般用IUPAC命名法、分子式、结构式、骨架式等形式来表示一个分子,然而这些形式最初是为人类而不是计算机设计的。为了便于计算机理解和利用分子,MRL被提出,MRL将分子映射到低维空间,表示为稠密向量。分子的学习向量(又称嵌入)可用于广泛的下游任务,如化学反应预测、分子性质预测、分子结构预测等。
研究人员已经提出了许多MRL方法,其中大部分都将SMILES字符串作为输入,尽管这些语言模型功能强大,但它们却很难从SMILES中学习到分子的原始结构信息,因为SMILES是分子结构的一维线性化。而GNN在处理分子表示中局限于设计新颖精致的GNN结构,忽略了MRL的本质——泛化能力。这激励了作者探索GNN架构之外的方法。
在本文中,作者使用化学反应来协助学习分子表征,提高其泛化能力。化学反应通常由化学反应方程式表示,反应物在左侧,生成物在右侧,例如乙酸和乙醇的费希尔酯化反应。作者的想法是保持分子在嵌入空间的等价性。更重要的是,当分子编码器是以总和作为readout函数的GNN时,该模型能够自动隐式地学习同一类别内一组化学反应的反应模板,学习反应模板是提高分子表征泛化能力的关键。
作者将该模型称为MoLR(chemical-reaction-aware molecule embeddings,化学反应感知的分子嵌入)。并且将可视化分子嵌入,表明它们能够编码反应模板和几个关键的分子属性,如分子大小和最小环的数量。