摘要
材料是现代社会的基础,支撑着能源、电子、医疗、交通与基础设施等多个领域的进步。具备特定性能的新材料的发现与设计能力,对于应对当前诸多全球性关键挑战具有重要意义。近年来,随着高质量材料数据的逐渐积累以及人工智能(AI)技术的快速发展,材料发现迎来了前所未有的机遇。数据驱动的生成模型为材料设计提供了强有力的工具,能够直接生成满足预定义性能要求的新型材料。 尽管相关研究迅速增长,但该领域仍缺乏最新、系统性的综述性工作。为填补这一空白,本文全面梳理了AI驱动的材料生成研究进展。我们首先对各类材料进行分类,并介绍晶体材料的多种表示方法;随后,系统总结当前主流的AI材料生成方法,并进行技术分类与评述;此外,本文还整理了常用的评估指标,开源代码和基准数据集;最后,我们讨论了该领域未来的发展方向与主要挑战。 相关资源可在以下地址获取: https://github.com/ZhixunLEE/Awesome-AI-for-Materials-Generation
关键词:科学中的人工智能、材料发现、生成模型、等变性、不变性
1 引言
材料发现是推动技术进步的重要引擎,直接影响现实世界中的众多关键问题。从能源系统、电子设备到生物医疗与可持续制造,创新材料不断赋予新功能并提升系统性能 [1]–[10]。随着全球需求的持续增长,先进材料的理性设计与探索已成为实现可扩展、高效与可持续解决方案的关键。 近年来,高通量筛选技术 [11]、开放获取的材料数据库 [12]–[17],以及基于机器学习的性能预测方法 [18]–[20],显著加速了材料发现流程。然而,发现性能最优的材料依然面临巨大挑战。原子结构或成分的微小变化可能导致材料性质的显著差异,使得材料搜索空间高度复杂且非线性 [18]。这种复杂性与控制晶格结构的势能面密切相关 [21]。 为应对上述挑战,“逆向设计”(inverse design)逐渐受到关注。例如,USPEX(Universal Structure Predictor: Evolutionary Xtallography)项目的推出标志着非经验性晶体结构预测的一项重要进展 [22]。逆向设计的目标是直接生成满足特定目标属性的材料结构——这些目标往往稀有且彼此冲突。研究者采用进化算法 [23]–[25] 和强化学习方法 [26] 来实现这一目标。随后,候选材料通常通过密度泛函理论(DFT)计算进行验证,以寻找稳定且高性能的化合物。 尽管如此,晶体结构生成仍高度依赖计算资源,这主要归因于两个方面:(1)晶体结构本身的复杂性,使其表示形式难以设计;(2)需要具备强鲁棒性的优化算法,在庞大的组成与结构空间中高效找到热力学稳定结构。 得益于过去十年在人工智能、计算能力与数据资源三方面的突破,材料生成迎来了迅速发展(见图1): 1. 计算能力:全球计算能力在过去十年内提升约1000倍,这得益于GPU与专用AI硬件的发展及云计算的普及,使得训练大规模AI模型变得可行。 1. 数据资源:实验与模拟产生的材料数据集数量快速增长(见表3)。例如,Materials Project数据库 [13] 提供了6万多个分子的性质数据以及14万多个无机化合物的计算结果。 1. 算法进展:自然语言处理中的大语言模型(LLMs)[27]–[29] 与计算机视觉中的扩散模型 [30]–[32] 带来了内容生成能力的飞跃,推动了AIGC(AI生成内容)的发展。这些模型具备可扩展性、灵活性与跨模态的高保真性,成为AI材料生成的关键支柱。
然而,尽管研究进展显著,该领域仍缺乏系统性综述,尤其是在表示方法多样、生成机制复杂、数据来源分散的背景下,研究者难以全面掌握当前发展现状。为此,本文旨在全面回顾“人工智能时代的材料生成”领域的研究现状。 我们首先总结材料的多种表示方式,包括几何图结构、文本序列、SLICES字符串和衍射图样;同时介绍晶体材料所具有的几何对称性与变换属性。随后,我们对现有主流生成方法(包括基于VAE、GAN、扩散模型以及自回归模型的方法)进行分类与技术演进梳理,介绍核心算法与当前最先进模型。此外,我们整理了常用数据集与评估指标,并探讨未来研究方向与存在的挑战。 本文的主要贡献如下: * 材料表示的详细归纳:系统介绍晶体结构的常见表示方法,并提供相应的数学定义。 * 生成技术的系统分类:全面归纳、比较现有主流材料生成方法,并提供发展时间线。 * 丰富的资源汇总:提供大量开源代码与数据集链接,方便读者快速获取并复现。 * 未来发展与挑战分析:总结该领域的未来研究方向和亟待解决的问题,激励学术界进一步创新。
论文结构安排如下: 第2节介绍相关综述工作,并说明本文的独特性; 第3节定义材料与生成模型的基础概念; 第4节介绍常用的编码器结构; 第5节系统归类当前AI驱动的材料生成方法; 第6节总结开放获取的数据集; 第7节介绍评估材料生成性能的指标; 第8节展望未来研究方向与挑战; 最后,第9节对全文进行总结。