预训练模型正在席卷 AI 领域。从大规模无标注数据中提取表征信息,再在小范围标注的下游任务上进行监督学习,正在成为很多领域的事实解决方案。NLP 中有 BERT、GPT-3,CV 中有 ViT,而这样的模式如何助力药物设计,也一直都是人们密切关注的问题。药物分子与图片、语言文字的不同之处在于,“什么是最好的分子表征”依旧是一个人们未能形成共识的问题。主流分子预训练模型均从一维序列或二维图结构出发,但分子结构本身是在三维空间中表示的。能否直接从三维信息出发构建预训练模型、获得更好的分子表征,是一个重要而有意义的问题。
近日,深势科技团队发布了首个三维分子预训练模型 Uni-Mol。Uni-Mol 直接将分子三维结构作为模型输入,而非采用一维序列或二维图结构,在利用 2 亿个分子三维构象和 3 百万个蛋白候选口袋数据进行预训练后,Uni-Mol 在几乎所有与药物分子和蛋白口袋相关的下游任务上都超越了 SOTA(state of the art),也让 Uni-Mol 得以能够直接完成分子构象生成、蛋白-配体结合构象预测等三维构象生成相关的任务,并超越现有解决方案。
分享主题:Uni-Mol分子3D表示学习框架和预训练模型
分享嘉宾:郑行,深势科技算法研究员,博士就读于北京大学计算生物物理方向,主要研究方向为小分子虚拟筛选、分子表示学习、分子生成等,致力于将 AI+Science研究范式应用在解决药物设计的实际问题中。
分享摘要:Uni-Mol 是深势科技发布的首个三维分子预训练模型。基于通用的三维分子表示学习(MRL)框架,Uni-Mol 在几乎所有于药物分子和蛋白口袋相关的下游任务上都超越了 SOTA,并能直接完成分子构象生成、蛋白-配体复合物结合结构预测等三维结构相关的任务。
相关链接:
项目地址:
https://github.com/dptech-corp/Uni-Mol
论文地址:
https://chemrxiv.org/engage/chemrxiv/article-details/628e5b4d5d948517f5ce6d72
Uni-Mol: A Universal 3D Molecular Representation Learning Framework