大型语言模型(LLMs)正在推动分子发现范式的转变,使研究人员能够通过自然语言、符号表示等方式,在化学空间中实现文本引导式交互,并正逐步扩展至多模态输入的融合应用。为推动“LLM赋能分子发现”这一新兴交叉领域的发展,本文对LLM在两个核心任务——分子生成分子优化——中的应用进行了最新且前瞻性的综述。 我们提出了面向上述任务的系统分类方法(taxonomy),并基于此对各类代表性技术进行了分析,重点展示了LLM在不同学习范式下的应用方式与能力体现。此外,本文还汇总了该领域常用的数据集与评估标准,以便研究者快速入门与比较。 最后,我们讨论了当前面临的关键挑战与未来发展方向,旨在将本综述打造为LLM与分子科学交叉领域研究人员的重要参考资源。 持续更新的阅读资源列表请访问: https://github.com/REAL-Lab-NU/Awesome-LLM-Centric-Molecular-Discovery

1 引言

分子设计与优化是多个科学领域的核心问题,包括药物发现(Zheng 等,2024)、材料科学(Grandi 等,2025)和合成化学(Lu 等,2024;Wang 等,2025)。然而,由于化学空间庞大且结构复杂,在保证化学有效性与结构可行性的同时发现具备理想性质的新型化合物仍是一项极具挑战性的任务(Zheng 等,2024;Yu 等,2025)。为实现这一目标,过去已有多种计算方法被提出,从变分自编码器(VAE)[Gómez-Bombarelli 等,2018]、生成对抗网络(GAN)[De Cao 和 Kipf,2018] 到基于Transformer的模型 [Edwards 等,2022]。然而,这些传统方法在生成高质量、多样化且具有可合成性的分子方面仍面临诸多限制(Ramos 等,2025;Sun 等,2025)。

近年来,**大型语言模型(LLMs)**在应对这些挑战方面展现出强大能力,并迅速吸引了广泛研究关注(Zheng 等,2024)。作为基础模型,LLMs拥有数十亿参数,具备诸如复杂推理、指令理解以及上下文学习等涌现能力,这些能力得益于其在多样化大规模数据集上的预训练(Brown 等,2020;Wei 等,2022a)。因此,LLMs不仅能够泛化至各种化学问题,还可以通过微调进一步适应特定任务。这些独特优势使LLMs成为探索化学空间、加速分子发现的全新范式。

尽管LLMs在分子发现任务中的应用兴趣日益增长,但现有的综述文献尚未对该交叉方向进行系统分析。此前的大多数综述(Cheng 等,2021;Zeng 等,2022;Tang 等,2024;Yang 等,2024)主要聚焦于通用的深度生成方法,而非专门讨论LLMs的独特贡献。另一些提及LLMs的综述(Ramos 等,2025;Zhang 等,2025;Guo 等,2025;AbuNasser,2024;Janakarajan 等,2024;Liao 等,2024)则多集中于化学领域本身,或只涉及不具备LLMs涌现能力的小规模语言模型。 为填补这一关键空白,本综述首次聚焦LLMs在分子发现中的生成作用,重点探讨两个核心任务:分子生成分子优化。我们具体分析LLMs在探索与操控复杂化学空间中的应用方式、模型适配与训练策略,并与仅作为特征提取或控制工具的辅助应用(如 Liu 等,2023;Liu 等,2024a)加以区分。 与以模型架构为分类依据的传统综述(如 AbuNasser,2024;Janakarajan 等,2024)不同,我们引入了基于学习范式的新分类体系,更好地反映LLMs在分子生成任务中的使用方式与效果。如图1所示,我们将方法划分为无需模型微调的策略(如零样本提示 Zero-Shot Prompting 和上下文学习 In-Context Learning)与需微调的策略(如有监督微调 Supervised Fine-Tuning 和偏好调优 Preference Tuning),以帮助研究者更系统地理解各类策略的优势与局限性。

总结来说,本综述在以下几个方面作出了贡献:

提出新的分类体系:我们依据学习范式而非模型结构,对现有研究进行分类,揭示LLMs能力的不同利用方式及其优劣。 * 系统梳理数据资源与评估指标:总结当前常用的数据集、基准与评估方法,便于研究者参考与比较。 * 识别关键挑战并展望未来方向:明确当前存在的研究瓶颈,并提出值得进一步探索的研究方向,助力该领域的持续发展。

成为VIP会员查看完整内容
0

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
低比特大语言模型综述:基础、系统与算法
专知会员服务
28+阅读 · 2024年10月6日
《多模态大语言模型视觉提示》综述
专知会员服务
33+阅读 · 2024年9月25日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
大型语言模型遇上自然语言处理:综述
专知会员服务
38+阅读 · 2024年5月23日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
61+阅读 · 2023年11月11日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
低比特大语言模型综述:基础、系统与算法
专知会员服务
28+阅读 · 2024年10月6日
《多模态大语言模型视觉提示》综述
专知会员服务
33+阅读 · 2024年9月25日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
大型语言模型遇上自然语言处理:综述
专知会员服务
38+阅读 · 2024年5月23日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
61+阅读 · 2023年11月11日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员