GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

近年来，在自然语言处理领域取得的突破性进展促成了强大的大型语言模型（LLM）的出现。这些模型在广泛的领域中展示了卓越的能力，包括理解、生成和翻译自然语言，甚至还包括超出语言处理范畴的任务。在这份报告中，我们深入探讨了LLM在科学发现/研究领域的性能，重点关注当前最先进的语言模型GPT-4。我们的调查涵盖了多个科学领域，包括药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计以及偏微分方程（PDE）。

评估GPT-4在科学任务上的表现对于揭示其在各研究领域的潜力至关重要，验证其领域特定的专业知识，加速科学进步，优化资源配置，指导未来模型的开发，并促进跨学科研究。我们的探索方法主要包括由专家驱动的案例评估，这为模型对复杂科学概念和关系的理解提供了定性洞见，偶尔还包括基准测试，定量评估模型解决明确定义的领域特定问题的能力。我们的初步探索表明，GPT-4在多种科学应用中显示出有前途的潜力，展示了其处理复杂问题解决和知识整合任务的能力。我们呈现了GPT-4在上述领域（例如，药物发现、生物学、计算化学、材料设计等）的性能分析，强调其优势和局限性。广义上讲，我们评估了GPT-4的知识库、科学理解、科学数值计算能力和各种科学预测能力。在生物学和材料设计领域，GPT-4拥有广泛的领域知识，可以帮助解决特定要求。在药物发现等其他领域，GPT-4显示出强大的属性预测能力。然而，在计算化学和PDE等研究领域，尽管GPT-4在协助研究人员进行预测和计算方面显示出潜力，但仍需要进一步努力以提高其准确性。尽管其能力令人印象深刻，但GPT-4在量化计算任务上还有改进空间，例如，需要微调以实现更好的准确性。^1我们希望这份报告能成为希望利用LLM进行科学研究和应用的研究人员和从业者的宝贵资源，同时也为那些有兴趣将自然语言处理推广到领域特定的科学任务中的人提供帮助。重要的是要强调，LLM和大规模机器学习领域正在迅速发展，未来这项技术的新一代可能具有超出本报告中强调的附加能力。特别是，将LLM与专业科学工具和模型的整合，以及基础科学模型的开发，代表了两个有前途的探索方向。

https://www.zhuanzhi.ai/paper/968daefee0970b66311215a807395f31

人工智能（AI）的快速发展催生了复杂的大型语言模型（LLM）的出现，例如OpenAI的GPT-4 [62]、谷歌的PaLM 2 [4]、Anthropic的Claude、Meta的LLaMA 2 [85]等。LLM能够转变我们在各个领域生成和处理信息的方式，并在包括抽象、理解 [23]、视觉 [29, 89]、编程 [66]、数学 [97]、法律 [41]、理解人类动机和情感等广泛任务中展示出卓越的性能。除了在文本领域的威力之外，它们还成功地融入了其他领域，如图像处理 [114]、语音识别 [38]，甚至还有强化学习，展示了其适应性和在广泛应用领域的潜力。此外，LLM还被用作控制器/协调器 [76, 83, 94, 106, 34, 48] 来协调其他机器学习模型处理复杂任务。在这些LLM中，GPT-4因其卓越能力而受到广泛关注。最近的一篇论文甚至表明，GPT-4可能展示了人工通用智能（AGI）的早期迹象 [11]。由于其在通用AI任务中的非凡能力，GPT-4在科学界也引起了显著关注 [71]，特别是在医学 [45, 87]、医疗保健 [61, 91]、工程学 [67, 66] 和社会科学 [28, 5] 等领域。在这项研究中，我们的主要目标是考察LLM在自然科学研究领域内的能力。由于自然科学的范围广泛，涵盖所有子学科是不可行的；因此，我们专注于一组选定的领域，包括药物发现、生物学、计算化学、材料设计和偏微分方程（PDE）。我们的目的是提供LLM在这些特定科学领域的性能和潜在适用性的广泛概览，以当前最先进的LLM GPT-4为我们的中心焦点。

本报告的总结可以在图 1.1 中找到。自然科学致力于通过系统的观察、实验和可检验假设的制定来理解自然世界。这些努力旨在揭示支配宇宙的基本原则和法则，范围从最小的亚原子粒子到最大的星系甚至更远。自然科学是一个非常多样化的领域，涵盖了广泛的学科，包括研究非生命系统的物理科学和研究生命有机体的生命科学。在本研究中，我们选择集中研究自然科学领域的一部分子领域，这些子领域既包括物理科学也包括生命科学。值得注意的是，这些领域并不是相互独立的；例如，药物发现与生物学有很大的重叠，它们也不都属于自然科学分类中的同一层次。药物发现是识别和开发新的候选药物，以治疗或预防特定疾病和医疗条件的过程。这个复杂且多面向的领域旨在通过创造安全、有效和有针对性的治疗剂来改善人类健康和福祉。在本报告中，我们探讨了GPT-4如何帮助药物发现研究（第2节），并研究了药物发现中的几个关键任务：知识理解（第2.2节）、分子属性预测（第2.4节）、分子操纵（第2.2.3节）、药物-靶标结合预测（第2.3节）和逆合成（第2.5节）。生物学是生命科学的一个分支，研究生命和生命有机体，包括它们的结构、功能、生长、起源、进化、分布和分类。作为一个广泛且多样的领域，生物学包含各种子学科，这些子学科专注于生命的特定方面，如遗传学、生态学、解剖学、生理学和分子生物学等。在本报告中，我们探讨了LLM如何帮助生物学研究（第3节），主要是理解生物序列（第3.2节）、利用内置的生物学知识进行推理（第3.3节）和设计生物分子与生物实验（第3.4节）。计算化学是化学（也是物理科学）的一个分支，它使用计算机模拟和数学模型来研究分子的结构、属性和行为，以及它们的相互作用和反应。通过利用计算技术的力量，该领域旨在增强我们对化学过程的理解，预测分子系统的行为，并协助设计新材料和药物。在本报告中，我们探讨了LLM如何帮助计算化学研究（第4节），主要关注电子结构建模（第4.2节）和分子动力学模拟（第4.3节）。材料设计是一个跨学科领域，研究（1）材料的结构、性能、加工和性能之间的关系，以及（2）新材料的发现。它结合了物理学、化学和工程学的元素。这个领域涵盖了广泛的自然和合成材料，包括金属、陶瓷、聚合物、复合材料和生物材料。材料设计的主要目标是理解材料的原子和分子排列如何影响其性能，并开发具有针对性特性的新材料，用于各种应用。在本报告中，我们探讨了GPT-4如何帮助材料设计研究（第5节），例如理解材料知识（第5.2节）、提出候选成分（第5.3节）、生成材料结构（第5.4节）、预测材料性能（第5.5节）、规划合成路线（第5.6节）和协助代码开发（第5.7节）。偏微分方程（PDE）代表了一类描述未知函数及其关于多个独立变量的偏导数之间关系的数学方程。PDE在模拟各种领域的重要现象方面有应用，如物理学、工程学、生物学、经济学和金融学。这些应用的例子包括流体动力学、电磁学、声学、热传递、扩散、金融模型、人口动态、反应-扩散系统等。在这项研究中，我们调查了GPT-4如何对PDE研究做出贡献（第6节），强调其对PDE相关的基本概念和AI技术的理解、定理证明能力和解PDE的能力。我们旨在了解GPT-4如何帮助自然科学研究以及在科学领域中的潜在局限性。特别是，我们研究了以下能力：

访问和分析科学文献。GPT-4能否建议相关的研究论文，提取关键信息，并为研究人员总结洞见？
概念澄清。GPT-4是否能够解释并提供科学术语、概念和原则的定义，帮助研究人员更好地理解相关主题？
数据分析。GPT-4能否处理、分析和可视化来自实验、模拟和实地观察的大型数据集，并在复杂数据中发现不明显的趋势和关系？
理论建模。GPT-4是否能协助开发物理系统的数学/计算模型，这对于物理学、化学、气候学、系统生物学等领域很有用？
方法论指导。GPT-4能否帮助研究人员通过分析先前的文献或在合成数据上运行模拟，选择适合其研究的正确的实验/计算方法和统计测试？
预测。GPT-4是否能够分析先前的实验数据，对新的假设场景和实验（例如，上下文中的少数次学习）进行预测，从而关注最有前途的途径？
实验设计。GPT-4是否能利用该领域的知识，建议研究人员可能没有考虑过的有用的实验参数、设置和技术，从而提高实验效率？
代码开发。GPT-4能否在广泛的科学应用中协助开发用于数据分析、模拟和机器学习的代码，通过从自然语言描述生成代码或从先前代码库中建议代码片段？
假设生成。GPT-4是否能够通过连接子领域中分散的信息，提出新的假设（例如，化合物、蛋白质、材料等），供研究人员在实验室中测试，从而扩展其研究范围？

我们的方法论在本报告中，我们选择了迄今为止最优秀的LLM，GPT-4，来研究和评估LLM在科学领域的能力。我们使用通过Azure OpenAI服务提供的GPT-4模型。我们采用定性和定量方法相结合的方式，确保对其在科学研究中的熟练程度有良好的理解。在大多数能力的情况下，我们主要采用定性方法，精心设计任务和问题，不仅展示GPT-4在科学专业知识方面的能力，而且解决基本问题：GPT-4在科学研究中的熟练程度。我们的目标是阐明其对多样化概念、技能和领域的理解的深度和灵活性，从而展示其作为科学研究中强大工具的多功能性和潜力。此外，我们仔细审查GPT-4的回应和行动，评估它们的一致性、连贯性和准确性，同时识别潜在的局限性和偏见。这种检查使我们能够更深入地了解系统的潜在弱点，为未来的改进和完善铺平道路。在我们的研究中，我们展示了跨越每个科学领域的众多有趣案例，说明了GPT-4在概念捕获、知识理解和任务协助等领域的多样化能力。对于某些特定能力，特别是预测性能力，我们还采用定量方法，使用公开的基准数据集来评估GPT-4在明确定义的任务上的表现，并展示了一系列案例研究。通过纳入定量评估，我们可以客观地评估模型在特定任务中的表现，从而更加稳健和可靠地了解其在科学研究应用中的优势和局限性。总而言之，我们调查GPT-4在科学领域性能的方法论涉及定性和定量方法的结合，提供了对其能力和局限性的全面和系统性的理解。

GPT-4在各种科学领域（包括药物发现、生物学、计算化学、材料设计和偏微分方程（PDE））展现出显著的潜力。它在各个领域的关键概念理解上展示了令人印象深刻的能力，并能完成广泛的任务。在药物发现领域，GPT-4展现出对该领域的全面掌握，能够在广泛的任务中提供有用的见解和建议。它在预测药物-靶标结合亲和力、分子属性和逆合成路线方面有所帮助。它还有潜力生成具有所需性质的新分子，这可能导致新药候选物的发现，以满足未得到满足的医疗需求。然而，也需要注意GPT-4的局限性，如处理SMILES序列的挑战和在定量任务中的局限性。

在生物学领域，GPT-4在理解和处理复杂的生物语言、执行生物信息学任务和作为生物学设计的科学助手方面表现出巨大潜力。它对生物学概念的广泛理解和执行各种任务的能力（如处理专门的文件、预测信号肽和从观察中推理出合理的机制），使其成为推进生物学研究的有价值工具。然而，GPT-4在处理生物序列（例如DNA和FASTA序列）方面存在局限，其在与研究不足实体相关的任务上的表现也有限。在计算化学领域，GPT-4在包括电子结构方法和分子动力学模拟在内的各个子领域中表现出卓越的潜力。它能够检索信息、建议设计原则、推荐合适的计算方法和软件包、为各种编程语言生成代码，并提出进一步的研究方向或潜在的扩展。然而，GPT-4在生成复杂分子的精确原子坐标、处理原始原子坐标和执行精确计算方面可能会遇到困难。在材料设计领域，GPT-4在帮助材料设计任务方面显示出潜力，包括检索信息、建议设计原则、生成新颖且可行的化学成分、推荐分析和数值方法，并为不同的编程语言生成代码。然而，它在表示和提出更复杂结构（例如有机聚合物和MOFs）方面遇到挑战，生成精确的原子坐标，并提供精确的定量预测。在PDE领域，GPT-4展示了理解基本概念、辨别概念之间的关系以及提供准确证明方法的能力。它能够推荐适当的分析和数值方法来解决各种类型的PDE，并用不同的编程语言生成代码以数值解决PDE。然而，GPT-4在数学定理证明方面的熟练程度仍有提升空间，其独立发现和验证新数学理论的能力在范围上仍然有限。

总之，GPT-4在科学发现方面展示了显著的潜力和一定的局限性。为了更好地利用GPT-4，研究人员应谨慎验证模型的输出，尝试不同的提示，并将其能力与专门的AI模型或计算工具相结合，以确保在各自研究领域得出可靠的结论和最佳性能：

可解释性和信任：在解释GPT-4的输出时保持健康的怀疑态度至关重要。研究人员应始终批判性地评估生成的结果，并将其与现有知识或专家意见进行交叉检验，以确保结论的有效性。
迭代式提问和细化：通过迭代方式提问或提供额外的上下文，可以提高GPT-4的表现。如果GPT-4的初始响应不令人满意，研究人员可以细化他们的问题或提供更多信息来引导模型提供更准确和相关的答案。
将GPT-4与领域特定工具相结合：在许多情况下，将GPT-4的能力与专门为科学发现任务设计的更专业的工具和模型相结合可能是有益的，如分子对接软件或蛋白质折叠算法。这种结合可以帮助研究人员利用GPT-4和领域特定工具的优势，以实现更可靠和准确的结果。尽管我们在本报告中没有广泛调查LLM与领域特定工具/模型的整合，但在第7.2.1节中简要讨论了一些示例。