《基于几何深度学习的药物研发》唐建教授报告,附视频与Slides

2022 年 10 月 21 日 专知

关键词静5青年讲座


编者按


2022年10月19日,加拿大蒙特利尔学习算法研究所(Mila-Quebec AI Institute)副教授唐建博士受邀于北京大学前沿计算研究中心做题为“Geometric Deep Learning for Drug Discovery”的报告。报告由计算机学院张铭教授和中心助理教授王鹤博士联合主持,相关内容通过腾讯会议、Bilibili同步直播,线上数百人观看。


✦ 

✦ 


唐建教授报告现场


讲座开始,唐建教授首先介绍了目前药物研发面临的挑战。药物研发是一个非常漫长且昂贵的过程,开发一款新药一般要花10年时间和25亿美元的资金,这也导致了目前市场上药价居高不下。具体来说,药物研发一般需要经历三个流程,首先确定药物的靶点,然后设计能够结合靶点的分子,最后是动物实验和三期临床实验。目前的情况是,设计分子的环节失败率很高,基本上只有10%的分子能够进入临床实验。

好消息是,近年来,医疗领域已经积累了大量的研究文献和大规模的数据集,这为训练高质量的分析和预测药物分子的 AI 奠定了基础。这之中有大量的数据以图的形式存在。例如,对于小分子,其中的原子可以表示为点,原子间相互作用(化学键等)可以表示为边;对于蛋白质,氨基酸残基可以表示为点,残基间的相互作用可以表示为边;对于医疗知识图谱,点表示医疗领域的各种概念(例如基因、疾病、药物),边则刻画了这些概念之间的联系(例如什么基因可能导致什么病,什么药可以治什么病)。

接下来,唐建教授介绍了他和他带领的研究小组近期的工作。这些工作主要分为三类。第一类是分子和蛋白质的建模,又可以细分为早期的聚焦于图表示学习的工作和近期在此基础上引入 3D 结构信息(即几何深度学习)的工作。第二类是医疗知识图谱上的学习和推理。第三类是开源的药物研发的机器学习框架,包括 TorchDrug 和 TorchProtein。

在分子的建模上,一个典型的工作是 GeoDiff,发表于 ICLR 2022 Oral。这是第一个将扩散(diffusion)模型用于生成 3D 分子构象(conformation)的工作。与经典的扩散模型一致,GeoDiff 在前向过程中不断地添加噪声,在反向生成时引入可学习的参数。然而几何结构的数据对模型提出了新的挑战:旋转、平移等变性(SE(3)-invariant)。如果我们把输入的几何结构在 3D 空间中平移并旋转一个角度,几何结构本身并不会发生改变。所以我们不希望模型局限于 3D 空间中坐标的具体数值,而是能对旋转、平移前后的同一几何结构学到相同的表示。GeoDiff 一方面要求了前向过程中的噪声分布旋转平移不变,另一方面用特殊设计的图神经网络确保了反向生成的过程旋转平移等价,并在数学上给出了模型满足旋转、平移等变性的严格证明。实验结果表明 GeoDiff 的效果显著优于之前的所有模型,在比较大的分子上表现更加突出。值得一提的是,GeoDiff 能够生成同一分子不同的合法构象,这是 AlphaFold2 做不到的。

在蛋白质的建模中,唐建教授及其团队同样引入了几何结构信息和旋转、平移等变性,在蛋白质表示的预训练、蛋白质大分子和药物小分子的对接(docking)等任务上取得了突破。他们还整理了比较重要的蛋白质表示学习的任务以及相应的数据集和模型,做成基准(benchmark),相关工作将见于 NeurIPS 2022。


在医疗知识图谱领域,唐建教授及其团队专攻知识图谱的表示学习和推理。表示学习的著名工作 RotatE 是第一个可以同时建模知识图谱中对称关系、不对称关系、逆关系和合成关系的模型,2019年发表在 ICLR 至今已经有一千余次的引用。另一项在知识图谱上结合了深度学习和符号推理的工作 RNNLogic 则是得到了图灵奖得主 Yoshua Bengio 的认可。

最后,唐建教授简单介绍了近年来他带领团队打造的用于药物研发的开源机器学习平台 TorchDrug 和 TorchProtein。平台上实现了相关领域目前来看最重要的任务及其对应的模型和数据集。平台的搭建联合了 IBM、Intel、NVIDIA 等知名公司。有志于探索机器学习在药物研发领域的应用的同学不妨可以关注。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“M173” 就可以获取【牛津大学博士论文】多模态概率推理的机器学习预测与协调,173页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
0

相关内容

唐建博士自2017年12月起担任Mila(魁北克AI研究所)和HEC Montreal的助理教授。他是加拿大CIFAR第一批人工智能主席(CIFAR AI Research Chair)。他的研究方向是深度图表示学习,在知识图谱、药物发现和推荐系统等领域有着广泛的应用。他是密歇根大学和卡内基梅隆大学的研究员。他在北京大学获得博士学位,并在密歇根大学做了两年的访问学者。他在微软亚洲研究院做了两年的研究员。他在图表示学习(如LINE、LargeVis和RotatE)方面的工作得到了广泛的认可。他获得了ICML ' 14的最佳论文奖和WWW ' 16的最佳论文提名。 https://jian-tang.com/
基于结构的药物设计与几何深度学习
专知会员服务
15+阅读 · 2022年10月31日
唐建教授《基于几何深度学习的药物研发》
专知会员服务
25+阅读 · 2022年10月21日
10篇论文阐述《等变图神经网络在药物研发中应用》
专知会员服务
22+阅读 · 2022年8月3日
人工智能药物发现,讲述AI与药物交叉应用研究
专知会员服务
151+阅读 · 2021年1月28日
一文梳理ICML 2022中图机器学习热点和趋势
PaperWeekly
12+阅读 · 2022年8月19日
可对药物分子进行表征的几何深度学习
机器之心
0+阅读 · 2022年2月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年12月2日
Arxiv
44+阅读 · 2022年9月6日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Generative Adversarial Networks: A Survey and Taxonomy
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年12月2日
Arxiv
44+阅读 · 2022年9月6日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Generative Adversarial Networks: A Survey and Taxonomy
Top
微信扫码咨询专知VIP会员