来自浙江大学的研究者通过领域知识来指导分子图对比学习。
近年来,生物医学领域开始将分子图表示学习应用于生物医药相关的多种下游任务,例如分子属性预测和药物设计。图对比学习方法无需设计复杂的预训练任务,通过从大规模无监督数据中挖掘自身监督信息来学习图的表示。与图像不同,分子图上的对比学习方法面临独特的挑战。首先,图的结构和语义信息在不同领域中差异显著,因此难以设计通用的图增强方案。尤其是对于分子图,化学键或官能团的添加或删除将在很大程度上改变分子的身份和特性。目前图对比学习的大多数方法主要关注图的拓扑结构,很少考虑图中蕴含的领域知识。另一个易被忽略的问题在于,分子图中的原子通常被建模为只有彼此之间存在化学键时才会产生联系的个体,未能考虑原子之间隐含的关联性(例如,具有相同性质的原子之间的共性)。
为解决以上问题,来自
浙江大学的研究者通过领域知识来指导分子图对比学习
。
首先,为了建立元素之间的微观联系及各元素的基本领域知识,该研究基于化学元素周期表,构建了化学元素知识图谱 (Chemical Element Knowledge Graph)。如下图所示,化学元素知识图谱描述了元素(图中绿色部分)之间的关系及其基本的化学性质(例如,周期性、金属性,图中红色部分)。
化学元素知识图谱建立了未通过化学键相连但化学性质有所关联的原子之间的联系
然后,该研究通过化学元素知识图谱指导原始分子图的图增强过程,有助于在不相邻但具有相同性质的原子之间建立联系。通过这种方法,增强的分子图既包含拓扑结构知识,又具备元素基本的化学领域知识。基于该化学元素知识图谱,本文创新性地提出一种知识增强的分子图对比学习框架 Knowledge-enhancedContrastive Learning (KCL)。KCL 利用化学元素知识图谱指导原始分子图的增强过程,并针对分子增强图设计了知识感知的消息传递网络 KMPNN,通过最大化正样本对之间的一致性和难负样本对之间的差异性构建对比损失以优化模型。实验结果表明,KCL 在涵盖不同分子属性的 8 个数据集上获得了 SOTA 性能。
知识指导的图增强模块利用化学元素知识图谱指导原始分子图的增强过程,使分子增强图不仅包含拓扑结构知识,还包含元素的基本领域知识。
Chemical Element KG Construction: 该研究从化学元素周期表中获取所有化学元素及其基本化学性质。每个元素具有 15 个以上的性质,包括金属性、周期性、状态、重量、电负性、电子亲和力、熔点、沸点、电离、半径、硬度、模量、密度、导电、热量和丰度。提取出的三元组以 (Gas, isStateOf, Cl) 的形式存在于 KG 中,代表元素和性质之间存在指定的关系。
Graph Augmentation: 对于原始分子图中的每一个原子,找出在化学元素知识图谱中将该原子作为尾实体的三元组。将这些三元组中的头实体作为新节点,关系作为头实体(性质)和尾实体(元素 / 原子)之间的边,获得分子增强图。分子增强图作为原始分子图的正样本,包含更丰富复杂的信息,能够捕捉原子之间的微观联系。
知识感知的图表示模块针对分子增强图设计了知识感知的消息传递网络 KMPNN,以更好的传递和融合增强图中两种不同类型的知识。
Knowledge Feature Initialization: 该研究采用常用的 KGE 方法,RotateE,对分子增强图中性质和关系节点进行初始化。
KMPNN Encoder: KMPNN 针对不同类型的邻居,提供了两种不同类型的消息传递,并根据邻居的重要性程度为其分配不同的注意力。通过 KMPNN,可获得分子增强图的表示。算法 1 描述了 KMPNN 的编码过程:
GNN based Encoder: 对于原始分子图,采用 GNN 模型学习其表示。
对比目标模块通过最大化正样本对之间的一致性和难负样本对之间的差异性构建对比损失,以优化表示模型。
Projection Head: 将原始分子图和分子增强图的表示映射到同一潜在特征空间,以便计算对比损失。
Negative Mining: 利用难负样本挖掘技术,选择在分子指纹空间中距离相近的分子图及其分子增强图作为负样本。
Contrastive Loss: 一个训练批次中某分子及其分子增强图所构成的正样本对的损失函数可表示为:
为了验证 KCL 的效果,该研究在 MoleculeNet 的 8 个基准数据集上进行评测,数据集具体信息如下所示:
该研究分别在 fine-tune protocol 和 linear protocol 两种设定下进行了实验。实验表明,KCL 在两种设定下均比以往分子图表示学习方法效果更佳。
本文旨在将基本化学领域知识融入分子图表示学习中。该研究构建了化学元素知识图谱以建立元素之间的微观联系,并提出一种知识指导的分子图对比学习框架—KCL。实验证明了 KCL 在 fine-tune protocol 和 linear protocol 两种设定下的有效性,并表明 KCL 相对以前的方法具有更好的可解释性和表达能力。
该研究将在以下几个方面扩展此工作。将引入不同粒度的领域知识以丰富化学元素知识图谱;将使用更深层次的知识表达手段,如 OWL2,为化学元素知识图谱加入描述逻辑;将发布多语言版本的开放数据集,持续更新化学元素知识图谱。
苏黎世联邦理工DS3Lab:构建以数据为中心的机器学习系统
苏黎世联邦理工学院(ETH Zurich) DS3Lab实验室由助理教授张策以及16名博士生和博士后组成,主要致力于两大研究方向,Ease.ML项目:研究如何设计、管理、加速以数据为中心的机器学习开发、运行和运维流程,ZipML项目:面向新的软硬件环境设计实现高效可扩展的机器学习系统。
12月15日-12月22日
,来自苏黎世联邦理工学院DS3Lab实验室的11位嘉宾将带来6期分享:构建以数据为中心的机器学习系统,详情如下:
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com