论文题目:Molecular Contrastive Learning with Chemical Element Knowledge Graph
本文作者:方尹、张强、杨海宏、庄祥、邓淑敏、张文、秦铭、陈卓、范骁辉、陈华钧(浙江大学)
接收会议:AAAI 2022
论文链接:https://arxiv.org/abs/2112.00544
数据集及代码:https://github.com/ZJU-Fangyin/KCL
欢迎转载,转载请注明出处
一、总述
二、方法
KCL框架图
具体来说,KCL框架分为三个模块。
(1)Knowledge-guided Graph Augmentation
知识指导的图增强模块利用化学元素知识图谱指导原始分子图的增强过程,使分子增强图不仅包含拓扑结构知识,还包含元素的基本领域知识。
Chemical Element KG Construction: 我们从化学元素周期表中获取所有化学元素及其基本化学性质。每个元素具有15个以上的性质,包括金属性、周期性、状态、重量、电负性、电子亲和力、熔点、沸点、电离、半径、硬度、模量、密度、导电、热量和丰度。提取出的三元组以 (Gas, isStateOf, Cl)的形式存在于KG中,代表元素和性质之间存在指定的关系。
化学元素知识图谱的统计信息
Graph Augmentation: 对于原始分子图中的每一个原子,找出在化学元素知识图谱中将该原子作为尾实体的三元组。将这些三元组中的头实体作为新节点,关系作为头实体(性质)和尾实体(元素/原子)之间的边,获得分子增强图。分子增强图作为原始分子图的正样本,包含更丰富复杂的信息,能够捕捉原子之间的微观联系。
(2)Knowledge-aware Graph Representation
知识感知的图表示模块针对分子增强图设计了知识感知的消息传递网络KMPNN,以更好的传递和融合增强图中两种不同类型的知识。
Knowledge Feature Initialization: 我们采用常用的KGE方法,RotateE,对分子增强图中性质和关系节点进行初始化。
KMPNN Encoder: KMPNN针对不同类型的邻居,提供了两种不同类型的消息传递,并根据邻居的重要性程度为其分配不同的注意力。通过KMPNN,可获得分子增强图的表示。算法1描述了KMPNN的编码过程:
知识感知的消息传递网络KMPNN的编码过程
GNN based Encoder: 对于原始分子图,采用GNN模型学习其表示。
(3)Contrastive Objective
对比目标模块通过最大化正样本对之间的一致性和难负样本对之间的差异性构建对比损失,以优化表示模型。
Projection Head: 将原始分子图和分子增强图的表示映射到同一潜在特征空间,以便计算对比损失。
Negative Mining: 利用难负样本挖掘技术,选择在分子指纹空间中距离相近的分子图及其分子增强图作为负样本。
Contrastive Loss: 一个训练批次中某分子及其分子增强图所构成的正样本对的损失函数可表示为:
三、实验
数据集信息
(2)实验结果
Fine-tune protocol效果
Linear protocol效果
四、总结与展望