7篇最新【Nature. Mach. Intell. 】图神经网络论文汇集

2022 年 3 月 26 日 专知

编译 | 萝卜皮

随着该领域的成熟，图神经网络论文的数量也在增长，作者仔细研究了一些科学应用，并收集了几篇发表在Nature上的GNN论文。

我们周围的很多信息都可以用图表来表示。一个例子是城市道路网络，其中交叉口是节点，道路是链接。另一个是调控网络，它描述了不同基因如何相互作用以增强或抑制某些细胞功能。图神经网络（GNN）可以处理基于图的信息以进行预测。在在 2022 年 3 月 23 日的《Nature Machine Intelligence》的一篇论文中，Xue Jiawei 团队基于全球 30 个城市的城市道路网络拓扑特征，使用 GNN 研究和预测社会经济特征。

论文链接：https://www.nature.com/articles/s42256-022-00462-y

十多年前，GNN 作为一种处理复杂数据的方法出现了，这些数据最好表示为对象之间的许多链接和依赖关系的图。卷积神经网络（CNN）擅长处理图像、文本或视频等数据。这些可以被认为是简单的图形或固定大小和形状的序列。

但我们周围的大部分数据都采用更复杂的不规则大小和形状的图形形式，例如社交网络、道路网络、基因组数据或分子相互作用。CNN 难以处理这种形式的数据，而这正是 GNN 的用武之地。它们学习对图中每个节点的局部环境信息进行编码。GNN 可以在整个图的级别上执行预测或分类任务，也可以针对每个节点或边执行预测或分类任务。

基于图的深度学习在许多领域都取得了成功，从推荐系统到交通时间预测。但 GNN 也已被证明可用于科学应用，例如基因组学、分子设计、药物开发和物理模拟。在 Schulte-Sasse 团队最近的一篇论文中可以找到一个有前景的基因组学示例。

论文链接：https://www.nature.com/articles/s42256-021-00325-y

在过去的二十年里，高通量测序技术与表观遗传和转录组分子数据相结合，为基因组学提供了丰富的信息，其中一些可以被挖掘来识别致癌基因。

近年来，癌症基因如何导致细胞生长的图景变得更加复杂：癌症可以通过DNA序列水平上基因突变以外的多种途径发生，表观遗传机制或调控区域中间接激活或沉默其他基因的非编码突变也可以发挥作用。多组学数据集可以阐明这些过程。

数据可以建模为生物网络或图形，其中节点代表基因，链接代表基因-基因相互作用。研究人员使用了一种高级类型的 GNN——图卷积网络——它可以根据节点特征向量和网络拓扑对网络中未标记的节点进行分类。通过他们的方法，利用多维多组学节点特征以及蛋白质-蛋白质相互作用网络的拓扑特征，不仅可以识别高度突变的癌症基因，还可以识别包含其他类型改变的基因，或与其他癌症基因相互作用的基因。该研究将来自 16 种癌症类型的基因组数据输入该方法，确定了 165 个可能导致癌症的新候选基因。

Schulte-Sasse 团队使用的机器学习方法——带有图卷积网络的半监督分类——由 Kipf 和 Welling 于 2017 年的一篇开创性论文中被引入。

论文链接：https://arxiv.org/abs/1609.02907

在过去的 5 年里，它刺激了基于图的机器学习的许多进步。Haghir Chehreghani 在 2022 年 3 月 23 日的《Nature Machine Intelligence》发表的一篇新闻与观点文章重点介绍了这篇论文，并讨论了该方法的效率、可解释性和可扩展性。

论文链接：https://www.nature.com/articles/s42256-022-00466-8

分子预测和药物发现是基于图的方法的另一个领域。几十年来，该领域以各种创造性的方式使用机器学习，与表示分子的不同方法相关联。一种方法是将分子表示为线性字符串（也称为「简化的分子输入行输入系统」或「SMILES」），这适用于自然语言处理中的深度学习方法。

或者说，为了保留分子的拓扑信息，可以将它们表示为图，以原子为节点，以键为链接。Wang Yuyang 团队最近的一篇论文。描述了一种基于自我监督 GNN 的方法，以解决与潜在生物活性分子的巨大空间（被认为是 10^60 级）相比，分子标记数据相对稀缺的问题。研究人员的框架在一个包含大约 1000 万个分子的大型未标记数据集上进行了训练，并学习了可用于区分化学性质的分子表示。