关键词**:**静5青年讲座
编者按
2022年10月19日,加拿大蒙特利尔学习算法研究所(Mila-Quebec AI Institute)副教授唐建博士受邀于北京大学前沿计算研究中心做题为“Geometric Deep Learning for Drug Discovery”的报告。报告由计算机学院张铭教授和中心助理教授王鹤博士联合主持,相关内容通过腾讯会议、Bilibili同步直播,线上数百人观看。
唐建教授报告现场
讲座开始,唐建教授首先介绍了目前药物研发面临的挑战。药物研发是一个非常漫长且昂贵的过程,开发一款新药一般要花10年时间和25亿美元的资金,这也导致了目前市场上药价居高不下。具体来说,药物研发一般需要经历三个流程,首先确定药物的靶点,然后设计能够结合靶点的分子,最后是动物实验和三期临床实验。目前的情况是,设计分子的环节失败率很高,基本上只有10%的分子能够进入临床实验。
好消息是,近年来,医疗领域已经积累了大量的研究文献和大规模的数据集,这为训练高质量的分析和预测药物分子的 AI 奠定了基础。这之中有大量的数据以图的形式存在。例如,对于小分子,其中的原子可以表示为点,原子间相互作用(化学键等)可以表示为边;对于蛋白质,氨基酸残基可以表示为点,残基间的相互作用可以表示为边;对于医疗知识图谱,点表示医疗领域的各种概念(例如基因、疾病、药物),边则刻画了这些概念之间的联系(例如什么基因可能导致什么病,什么药可以治什么病)。
接下来,唐建教授介绍了他和他带领的研究小组近期的工作。这些工作主要分为三类。第一类是分子和蛋白质的建模,又可以细分为早期的聚焦于图表示学习的工作和近期在此基础上引入 3D 结构信息(即几何深度学习)的工作。第二类是医疗知识图谱上的学习和推理。第三类是开源的药物研发的机器学习框架,包括 TorchDrug 和 TorchProtein。
在分子的建模上,一个典型的工作是 GeoDiff,发表于 ICLR 2022 Oral。这是第一个将扩散(diffusion)模型用于生成 3D 分子构象(conformation)的工作。与经典的扩散模型一致,GeoDiff 在前向过程中不断地添加噪声,在反向生成时引入可学习的参数。然而几何结构的数据对模型提出了新的挑战:旋转、平移等变性(SE(3)-invariant)。如果我们把输入的几何结构在 3D 空间中平移并旋转一个角度,几何结构本身并不会发生改变。所以我们不希望模型局限于 3D 空间中坐标的具体数值,而是能对旋转、平移前后的同一几何结构学到相同的表示。GeoDiff 一方面要求了前向过程中的噪声分布旋转平移不变,另一方面用特殊设计的图神经网络确保了反向生成的过程旋转平移等价,并在数学上给出了模型满足旋转、平移等变性的严格证明。实验结果表明 GeoDiff 的效果显著优于之前的所有模型,在比较大的分子上表现更加突出。值得一提的是,GeoDiff 能够生成同一分子不同的合法构象,这是 AlphaFold2 做不到的。
在蛋白质的建模中,唐建教授及其团队同样引入了几何结构信息和旋转、平移等变性,在蛋白质表示的预训练、蛋白质大分子和药物小分子的对接(docking)等任务上取得了突破。他们还整理了比较重要的蛋白质表示学习的任务以及相应的数据集和模型,做成基准(benchmark),相关工作将见于 NeurIPS 2022。
在医疗知识图谱领域,唐建教授及其团队专攻知识图谱的表示学习和推理。表示学习的著名工作 RotatE 是第一个可以同时建模知识图谱中对称关系、不对称关系、逆关系和合成关系的模型,2019年发表在 ICLR 至今已经有一千余次的引用。另一项在知识图谱上结合了深度学习和符号推理的工作 RNNLogic 则是得到了图灵奖得主 Yoshua Bengio 的认可。
最后,唐建教授简单介绍了近年来他带领团队打造的用于药物研发的开源机器学习平台 TorchDrug 和 TorchProtein。平台上实现了相关领域目前来看最重要的任务及其对应的模型和数据集。平台的搭建联合了 IBM、Intel、NVIDIA 等知名公司。有志于探索机器学习在药物研发领域的应用的同学不妨可以关注。