Hit identification is a critical yet resource-intensive step in the drug discovery pipeline, traditionally relying on high-throughput screening of large compound libraries. Despite advancements in virtual screening, these methods remain time-consuming and costly. Recent progress in deep learning has enabled the development of generative models capable of learning complex molecular representations and generating novel compounds de novo. However, using ML to replace the entire drug-discovery pipeline is highly challenging. In this work, we rather investigate whether generative models can replace one step of the pipeline: hit-like molecule generation. To the best of our knowledge, this is the first study to explicitly frame hit-like molecule generation as a standalone task and empirically test whether generative models can directly support this stage of the drug discovery pipeline. Specifically, we investigate if such models can be trained to generate hit-like molecules, enabling direct incorporation into, or even substitution of, traditional hit identification workflows. We propose an evaluation framework tailored to this task, integrating physicochemical, structural, and bioactivity-related criteria within a multi-stage filtering pipeline that defines the hit-like chemical space. Two autoregressive and one diffusion-based generative models were benchmarked across various datasets and training settings, with outputs assessed using standard metrics and target-specific docking scores. Our results show that these models can generate valid, diverse, and biologically relevant compounds across multiple targets, with a few selected GSK-3$β$ hits synthesized and confirmed active in vitro. We also identify key limitations in current evaluation metrics and available training data.


翻译:苗头化合物识别是药物发现流程中关键但资源密集的环节,传统上依赖于对大型化合物库的高通量筛选。尽管虚拟筛选技术已取得进展,这些方法仍耗时且成本高昂。深度学习的最新进展使得能够学习复杂分子表征并从头生成新型化合物的生成模型得以发展。然而,利用机器学习替代整个药物发现流程仍极具挑战性。本研究中,我们转而探究生成模型能否替代流程中的一个特定环节:类苗头化合物生成。据我们所知,这是首个将类苗头化合物生成明确定义为独立任务,并实证检验生成模型能否直接支持药物发现流程该阶段的研究。具体而言,我们探究此类模型能否被训练用于生成类苗头化合物,从而直接整合甚至替代传统的苗头化合物识别工作流。我们提出了针对该任务的评估框架,将理化性质、结构特征及生物活性相关标准整合到定义类苗头化合物化学空间的多级过滤流程中。研究对两种自回归模型和一种基于扩散的生成模型在不同数据集和训练设置下进行了基准测试,使用标准指标和靶点特异性对接评分评估输出结果。实验表明,这些模型能够针对多个靶点生成有效、多样且具有生物相关性的化合物,其中部分选定的GSK-3$β$苗头化合物已完成合成并在体外实验中验证了活性。同时,我们指出了当前评估指标和可用训练数据存在的主要局限性。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员