深度学习(DL)是材料数据科学中发展最快的课题之一,其应用迅速崛起,涵盖了原子、图像、光谱和文本数据模式。DL允许分析非结构化的数据和自动识别特征。最近,大型材料数据库的发展推动了DL方法在原子学预测方面的应用。相比之下,图像和光谱数据的进展在很大程度上利用了高质量的正向模型以及生成性无监督DL方法所带来的合成数据。在这篇文章中,我们介绍了深度学习方法的高水平概述,然后详细讨论了深度学习在原子学模拟、材料成像、光谱分析和自然语言处理方面的最新发展。对于每一种模式,我们都讨论了涉及理论和实验数据的应用,典型的建模方法及其优势和局限性,以及相关的公开可用软件和数据集。在评论的最后,我们讨论了最近与该领域的不确定性量化相关的交叉工作,以及对材料科学中DL方法的局限性、挑战和潜在增长领域的简要看法。
"加工-结构-性能 "是材料科学和工程(MSE)的关键术语。材料结构和现象的长度和时间尺度在这四个要素中差异很大,进一步增加了复杂性。例如,结构信息的范围可以从元素的原子坐标的详细知识到相的微观空间分布(微观结构),到碎片连接(中间尺度),再到图像和光谱。在上述各部分之间建立联系是一项具有挑战性的任务。
实验和计算技术对确定这种关系都是有用的。由于实验设备自动化的快速增长和计算资源的巨大扩展,公共材料数据集的规模出现了指数级的增长。通过材料基因组计划(MGI)和越来越多地采用可查找、可访问、可互操作、可重用(FAIR)原则,已经开发了一些大型实验和计算数据集。这样的数据爆发需要自动分析,这可以通过机器学习(ML)技术来推动。
深度学习(DL)是机器学习(ML)的一个专门分支。深度学习的灵感最初来自于人脑中的计算和认知的生物模型,DL的主要优势之一是它有可能从原始输入数据中提取更高层次的特征。
在我们日常生活的许多方面,DL的应用正在迅速取代传统系统,例如,在图像和语音识别、网络搜索、欺诈检测、电子邮件/垃圾邮件过滤、金融风险建模等方面。DL技术已被证明在众多领域提供了令人兴奋的新能力(如下围棋、自动驾驶汽车、导航、芯片设计、粒子物理学、蛋白质科学、药物发现、天体物理学、物体识别等)。
最近,DL方法在许多科学领域,如化学、物理学、生物学和材料科学中的表现已经超过了其他机器学习技术。DL在材料科学和工程中的应用还比较新,该领域还没有充分挖掘其潜力、影响和局限性。DL为研究材料现象提供了新的方法,并推动了材料科学家扩展他们的传统工具集。
DL方法已被证明可以作为基于物理学的材料设计的补充方法。虽然大型数据集通常被视为成功应用DL的先决条件,但诸如转移学习、多保真建模和主动学习等技术通常也能使DL在小型数据集上可行。
传统上,材料的设计是通过试错的方法,加上强烈的化学直觉来进行的。除了是一种非常昂贵和耗时的方法外,材料组合的数量是如此之大,以至于无法通过实验来研究,这就导致了对经验配方和计算方法的需求。虽然计算方法(如密度泛函理论、分子动力学、蒙特卡洛、相位场、有限元)比实验快得多、便宜得多,但它们仍然受到长度和时间尺度的限制,这反过来又限制了它们各自的适用领域。与传统的科学计算相比,DL方法可以提供可观的速度,而且对于某些应用,正在达到与基于物理或计算模型相媲美的精度水平。
此外,进入一个新的材料科学领域并进行前沿研究需要多年的教育、培训,以及专业技能和直觉的发展。幸运的是,我们现在生活在一个数据和计算资源日益开放的时代。成熟的、有据可查的DL数据库使DL研究比几乎任何其他研究领域的新人更容易获得。诸如欠拟合/超拟合/交叉验证等测试和基准方法是常识,衡量模型性能的标准也在研究界中得到了确立。
尽管DL方法有很多优点,但也有缺点,最重要的是它们的黑盒性质,可能会阻碍对所研究现象的物理洞察力。评估和提高DL模型的可解释性(interpretability和explainability)仍然是一个活跃的研究领域。一般来说,一个DL模型有几千到几百万个参数,这使得模型的解释和直接产生科学的见解变得很困难。
尽管最近有几篇关于ML在MSE中应用的很好的评论,但用于材料的DL一直在快速发展,值得专门写一篇综述来涵盖这个领域的爆炸性研究。本文讨论了DL方法中的一些基本原则,并强调了材料科学DL应用的最新进展中的主要趋势。随着材料中DL应用的工具和数据集的不断发展,我们提供了一个github资源库(https://github.com/deepmaterials/dlmatreview ),可以随着新资源的公开提供而更新。
图1:人工智能(AI)、机器学习(ML)和深度学习(DL)方法及其在材料科学和工程中的应用概况的示意图。