本教程向数据科学研究人员和从业人员介绍了应用于生物医学科学和医疗健康中各种问题的基于图神经网络(GNN)的方法。本教程首先概述了利用GNN实现小分子、大分子和生物医学知识图谱的各种机会。四项实践活动将为参与者提供一系列不同的生物医学问题,特别是如何部署基于GNN的库用于这些应用,导致生物表型预测,相互作用预测,亲和力预测和药物发现。
本教程将分为以下五个部分:
第一节: 生物医学中的图ML概述。本节介绍生物医学科学中常用的不同类型的图,以及如何利用GNN等基于图的机器学习方法。特别地,我们将涵盖单一实体生物医学网络,包括基因调控网络和蛋白质-蛋白质相互作用网络,以及多实体网络,如蛋白质、基因、疾病、症状和药物的知识图谱。本节还介绍了小分子和大分子(如有机化合物和蛋白质)的图表示,它们可以分别建模为原子和残基的独立图。
第二节: 用GNN解释小分子的意义。本节演示如何开发端到端基于图的ML管道,用于分子性质预测。该管道首先涵盖了如何从原子图构建小有机化合物的特征。然后,将介绍使用DGL-lifesci命令行界面的两个用例:1)从头开始训练GNN以进行分子特性预测,2)微调预训练的GNN以进行分子特性预测。
第三节: 用GNN解释大分子的意义。本节演示如何使用GNN来预测包括RNA和蛋白质在内的大分子的性质。我们将涵盖两个实际案例研究:1)使用GCN预测COVID-19 mRNA疫苗降解,2)使用氨基酸残基图上的等变GNN预测蛋白质功能。
第四节: 超越单图,基于双图的蛋白质-配体结合亲和力预测。本节演示一个在一对图之间进行预测的案例研究。蛋白质-配体结合亲和度预测在药物发现早期的候选药物筛选中具有重要意义。我们演示了如何使用PotentialNet来完成这项任务,以及一种新颖的分子数据匿名化程序来保护分子结构的IP。
第五节:组织和生成新的知识,用于药物发现和利用知识图谱(KGs)。本节展示了图在生命科学中的另一个应用,它使用大规模的KGs来组织来自不同医疗来源的信息,并对这些KGs进行预测。我们将回顾构建这类医学知识图谱的三种方法:1)挖掘医学文献和出版物;2)处理和拼接来自不同医学数据库的不同知识图谱;3)将关系数据库转换为知识图谱。我们将回顾展示如何使用知识图谱和图形ML来对知识图谱进行预测的笔记本,并解释完成知识图谱的常见目标。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“GNN4LS” 就可以获取《GNN如何用于生命科学?KDD2022亚马逊最新《图神经网络生命科学应用》教程,55页ppt》专知下载链接