LLM4SR：关于大规模语言模型在科学研究中的应用综述

近年来，大规模语言模型（LLMs）的快速发展已经彻底改变了科学研究的格局，为研究周期的各个阶段提供了前所未有的支持。本文呈现了首个系统性综述，专门探讨大规模语言模型如何革新科学研究过程。我们分析了LLMs在四个关键研究阶段中所发挥的独特作用：假设发现、实验规划与实施、科学写作以及同行评审。我们的综述全面展示了任务特定的方法论和评估基准。通过识别当前面临的挑战并提出未来的研究方向，本综述不仅突出了LLMs的变革潜力，还旨在激发并指导研究人员和实践者利用LLMs推动科学探究的发展。相关资源可在以下仓库访问：https://github.com/du-nlp-lab/LLM4SR。

1 引言

“如果我看得更远，那是因为我站在巨人的肩膀上。” —— 艾萨克·牛顿科学研究流程是启蒙时代系统性探究成就的见证 [17, 58, 58]。在这一传统范式中，科学研究涉及一系列明确的步骤：研究人员首先收集背景知识，提出假设，设计并执行实验，收集和分析数据，最后通过经过同行评审的手稿报告发现。这一循环过程促进了现代科学和技术的突破性进展，但仍受到人类研究人员所固有的创造力、专业知识、有限时间和资源的制约。几十年来，科学界一直在努力通过自动化科学研究的各个方面来增强这一过程，旨在提高科学家的生产力。早期的计算机辅助研究可以追溯到1970年代，出现了如自动数学家（Automated Mathematician）[74, 75] 和 BACON [71] 等系统，这些系统展示了机器在定理生成和经验法则识别等专门研究任务中的潜力。更近期，AlphaFold [62] 和 OpenFold [4] 等系统则展示了在某些特定研究任务中的开创性努力，显著加速了相关领域的科学进展，提升速度达到数千倍。然而，直到基础模型的出现和最近大规模语言模型（LLMs）[2, 154] 的爆发，跨多个研究领域的全面AI辅助才成为现实 [190]。近年来，LLMs取得了显著的进展，改变了AI和自然语言处理（NLP）等多个领域。这些模型，如GPT-4 [2] 和LLaMA [154]，在理解、生成和与人类语言互动方面设立了新的基准。通过大规模数据集和创新架构的支持，这些模型的能力已经超越了传统的NLP任务，涉及更复杂和领域特定的挑战。尤其是LLMs处理海量数据、生成类人文本以及在复杂决策中提供支持的能力，已经引起了科学界的广泛关注 [92, 141]。这些突破表明，LLMs有潜力彻底革新科学研究的开展、记录和评估方式 [156, 165, 174]。在这篇综述中，我们探讨了LLMs当前在科学研究过程中各个阶段的应用。具体来说，我们识别了LLMs展现出显著潜力的四项任务。首先，我们探讨它们在科学假设发现中的应用，LLMs利用现有知识和实验观察来提出新的研究思路。接下来，我们回顾它们在实验规划和实施中的贡献，LLMs在优化实验设计、自动化工作流程和数据分析方面发挥了重要作用。我们还涵盖了LLMs在科学写作中的应用，包括生成引用、相关工作部分，甚至起草整篇论文。最后，我们讨论了LLMs在同行评审中的潜力，LLMs通过自动化评审和识别错误或不一致来支持对科学论文的评估。对于每项任务，我们提供了方法论、基准和评估方法的全面综述。此外，本综述还识别了每项任务中的局限性，并突出了需要改进的领域。通过分析LLMs在研究周期各阶段的贡献，本综述旨在激发研究人员探索新兴概念、开发评估指标，并设计创新方法，推动LLMs在研究工作流程中的有效整合。

与现有综述的比较

与之前的专门研究相比，本综述提供了更广泛和更全面的视角，涉及LLMs在整个科学研究周期中的应用。例如，Zhang等人 [187] 综述了超过260种LLM在各学科科学发现中的应用，主要关注模型架构和数据集等技术层面，未将其角色置于更广泛的研究过程背景中。类似地，其他综述通常采用更狭窄的范围，考察LLMs在一般应用中的特定能力，如规划 [55] 或自动化 [158]，而非其在科学研究工作流程中的集中应用。此外，一些研究讨论了与特定研究阶段相关的一般方法，但并未专注于LLMs本身，如相关工作和引用文本生成 [89] 或同行评审过程 [33]。相比之下，本综述整合了这些零散的观点，提供了LLMs在科学工作流程中贡献的整体分析，并突出了它们在应对现代研究多样化和不断发展的需求中的潜力。

本综述的结构

如图2所示，本综述的结构如下： * §2 讨论了LLMs在科学假设发现中的应用，概述了相关方法论和关键挑战。 * §3 聚焦于实验规划和实施，重点介绍LLMs如何优化和自动化这些过程。 * §4 深入探讨了自动化论文写作，包括引用和相关工作生成。 * §5 探索了LLMs辅助的同行评审。对于每个主题，本综述的结尾部分总结了当前的挑战和未来方向，以应对这一快速发展的领域。

2. LLMs在科学假设发现中的应用

概述

在“LLMs用于科学假设发现”这一领域出现之前，最相关的前沿研究领域是“基于文献的发现”和“归纳推理”。我们首先总结了这两个相关领域的研究（作为历史背景），然后总结了方法、基准、评估发展趋势和重要进展，最后总结了发现任务中的主要挑战。

科学发现的历史

使用LLMs生成新的科学假设是一个新兴的研究课题，主要源自两个相关的研究领域，即“基于文献的发现”和“归纳推理”。

**2.2.1 基于文献的发现

基于文献的发现（LBD）最早由Swanson[151]提出。其核心思想是“知识可以是公开的，但尚未被发现，如果独立创建的片段在逻辑上相关但从未被检索、汇集和解释。”因此，如何检索可以汇集以创造新知识的公共知识仍然是一个挑战。Swanson[151]提出了LBD的经典形式化模型，即“ABC”模型，其中两个概念A和C被假设为通过某个中间概念B在论文中共同出现而相关联。最近的工作使用了词向量[155]或链接预测模型[152; 160; 171]来发现概念之间的链接以组成假设。然而，经典的LBD方法没有建模人类科学家在构思过程中考虑的上下文，并且仅限于预测离散概念之间的成对关系[47]。为了克服这些限制，Wang等人[159]首次尝试将LBD置于自然语言上下文中以约束生成空间，并使用生成的句子作为输出，而不仅仅是像传统LBD那样预测关系。LBD的另一个局限性是长期以来被认为仅适用于非常特定、狭窄类型的假设[159]。然而，科学发现的最新进展表明，LBD可能具有更广泛的应用范围。特别是，Yang等人[174]和Yang等人[176]分别与社会学和化学研究人员进行了广泛讨论，发现大多数现有的社会学和化学发表的假设（而不仅仅是狭窄类型的假设）都可以用LBD模式表述。这可能表明未来在社会学和化学中发表的假设也可能来自现有知识的正确链接和关联。

**2.2.2 归纳推理

归纳推理是从特定的“观察”中找到一个具有广泛适用性的“规则”或“假设”[175]。例如，地心说、日心说和牛顿的万有引力定律都是基于对恒星和行星运动的“观察”提出的“规则”。科学发现是归纳推理的极端任务，其中每个“规则”都是一个新颖的科学发现。科学哲学界总结了归纳推理中“规则”的三个基本要求[113]：（1）“规则”不应与“观察”相冲突；（2）“规则”应反映现实；（3）“规则”应呈现一个可以应用于比“特定”观察更大范围的通用模式，涵盖观察中不存在的新信息。之前的归纳推理研究主要由“归纳逻辑编程”社区进行[26]，该社区使用形式语言和符号推理器。Yang等人[173]首次在NLP领域进行了生成性归纳推理的研究，即从特定的自然语言观察中生成自然语言规则，并引入了科学哲学界对归纳推理的要求。受语言模型倾向于生成模糊且不具体规则的经验启发，他们提出了第四个要求：（4）“规则”应清晰且足够详细。第四个要求可能被科学哲学界忽视了，因为它太明显了。受这些要求的启发，Yang等人[173]设计了一种过度生成然后过滤的机制，利用语言模型先生成许多初步规则，然后过滤掉不符合要求的规则。随后，开发了使用自我精炼代替过滤并使用更多推理步骤以获得更好规则的方法[120, 163, 191, 194]。然而，这些工作试图归纳的“规则”要么是已知知识，要么不是科学知识，而是合成的模式。Yang等人[174]首次尝试将经典的归纳推理任务设置（发现已知/合成知识）扩展到真实的科学发现设置：利用LLMs从公开的网页数据中自主发现新颖且有效的社会科学科学假设。具体来说，他们收集了关于社会科学概念的新闻、商业评论和维基百科页面作为网页数据来发现假设。Majumder等人[107, 108]进一步提出了“数据驱动发现”的概念，即利用网络上的所有公共实验数据（以及手头的私人实验数据）跨学科发现假设。他们的动机是，大量公开可用的实验数据的潜力尚未得到充分利用，许多新颖的科学假设可以从现有数据中发现。

方法的发展

在科学发现的方法中，有一个明确的方法发展轨迹。我们首先介绍这一轨迹，然后探讨其他方法。

**2.3.1 主要轨迹

总的来说，科学发现的这一方法发展轨迹可以被视为将更多关键组件纳入方法中。表1总结了我们认为重要的关键组件，并指出每种方法是否包含这些组件。具体来说，它们是“灵感检索策略”、“新颖性检查器”、“有效性检查器”、“清晰度检查器”、“进化算法”、“利用多个灵感”、“假设排名”和“自动研究问题构建”。在这里，每个“关键组件”指的是已被证明对科学发现任务有效的详细且独特的方法论。我们排除了可能直观上有帮助但尚不清楚如何从概念中提取特定方法对该任务有效的广泛通用概念（例如工具使用）。接下来，我们介绍这些关键组件。对于每个关键组件，我们使用一到两段文字进行简要概述，总结其发展轨迹。本节中提到的每种方法的参考信息可以在表1中找到。灵感检索策略。除了依赖背景知识外，基于文献的发现（LBD）还促进了额外知识的检索，作为提出新假设的灵感来源。SciMON[159]首次将LBD的概念引入发现任务，展示了新知识可以通过现有知识的链接组成。至关重要的是，灵感不应在之前已知与背景相关，或者至少不应以已知的方式与背景相关联[176]。否则，假设将不会新颖。受经典LBD形式化中“ABC”模型的启发，给定背景知识，SciMON检索语义相似的知识、知识图谱邻居和引用图谱邻居作为灵感。具体来说，如果两个知识的SentenceBERT[127]嵌入具有高余弦相似度，则它们被识别为“语义相似”；他们构建的知识图谱遵循“[方法，用于，任务]”格式。ResearchAgent严格遵循“ABC”模型，构建概念图，其中链接表示两个连接的概念节点曾在同一篇论文中出现过。它检索与背景概念在概念图上连接的概念（概念共现）。Scideator基于语义匹配（语义学者API推荐）和概念匹配（包含相似概念的论文，同一主题、同一子领域和不同子领域）检索灵感论文。SciPIP[164]从语义相似的知识（基于SentenceBERT）、概念共现和引用图谱邻居中检索灵感。它提出了过滤方法，以过滤掉对概念共现检索无用的概念。与选择语义或引用邻居作为灵感不同，SciAgents随机抽样另一个与背景概念在引用图谱中通过长或短路径连接的概念作为灵感。MOOSE[174]提出使用LLM选择的灵感：给定研究背景和一些灵感候选者，并要求LLM从候选者中选择灵感。然后MOOSE-Chem[176]也采用了这种方法。MOOSE-Chem假设在训练了数亿篇科学论文后，最先进的LLMs可能已经具备了一定的能力来识别背景知识的灵感以组成新知识的发现。MOOSE-Chem通过注释2024年发表的51篇化学论文（这些论文仅在2024年在线提供）的背景、灵感和假设，分析了这一假设，并查看仅使用截至2023年的训练数据的LLMs是否可以在仅给出背景的情况下检索到注释的灵感。他们的结果显示检索率非常高，表明这一假设可能基本正确。然后Nova也采用了LLM选择的灵感，动机是利用LLM的内部知识来确定新想法的有用知识，应该能够超越传统的实体或关键词检索方法。反馈模块。下一个关键组件是对生成的假设在新颖性、有效性和清晰度方面的迭代反馈。这些反馈首先由MOOSE提出，受归纳推理中对假设的要求启发[113, 173]。这三个方面足够客观，可以给出反馈，并且每个方面对于一个好的假设都是必不可少的。

新颖性检查器。生成的假设应与现有文献相比是一个新颖的发现。当假设倾向于与现有假设相似时，提供增强其新颖性的反馈可能有助于假设的制定。现有的新颖性反馈方法都基于LLMs。一般来说，有三种提供新颖性反馈的方法。第一种方法将每个生成的假设与相关综述进行比较（MOOSE）；第二种方法迭代检索相关论文进行比较（SciM SciAgents, Scideator, CoI）；第三种方法直接利用LLMs的内部知识进行评估（Qi, ResearchAgent, AIScientist, MOOSE-Chem, VirSci）。
有效性检查器。生成的假设应是有效的科学/工程发现，准确反映客观宇宙[113]。真正的有效性反馈应来自实验结果。然而，为每个生成的假设进行实验既耗时又昂贵。因此，目前有效性反馈几乎完全依赖于LLMs或其他训练过的神经模型的启发式方法。例外是FunSearch, HypoGeniC, LLM-SR, 和 SGA。具体来说，FunSearch是关于生成数学问题的代码。编译器和验证代码自然是高效且有效的验证器；HypoGeniC和LLM-SR专注于数据驱动发现，这意味着它们可以访问观察示例，用于检查与每个生成假设的一致性；SGA创建了一个虚拟物理模拟环境来模拟真实实验。然而，有效性检查器仍然是科学发现社区的一个重大挑战。未来的研究方向包括机器人技术和自动化实验室，可以自动进行湿实验（例如生物学和化学实验）以验证生成的假设。对于计算机科学相关的假设，未来的研究方向可能是更先进的自动代码实现系统。
清晰度检查器。生成的假设应足够清晰地传达信息并提供足够的细节[173]。然而，LLMs倾向于生成细节不足的假设[159]。因此，提供清晰度反馈以细化假设并扩展细节将是有益的[174]。当前的方法（MOOSE, ResearchAgent, MOOSE-Chem, 和 VirSci）都采用LLMs进行自我评估清晰度。 进化算法。进化算法是受生物进化原理启发的优化算法的一个子集。它假设存在一个“环境”，其中无法适应它的实体将被“淘汰”，而超级实体将从具有某种适应性的实体之间的特征“重组”中进化出来（此过程也称为“突变”）。这一关键组件很重要，因为（1）真实的实验评估和生成的假设的启发式评估自然充当“环境”。（2）科学假设发现的本质从根本上可以看作是从仅已知知识输入到未知但有效知识的突变。尽管目标相似，当前的科学发现方法以不同的方式利用进化算法。FunSearch首次将进化算法引入科学发现任务。他们采用了一种基于岛屿的进化算法，其中每个岛屿是一组相似的方法，每个岛屿不断突变为新的假设。在某些时间间隔，一些排名最低的岛屿被“淘汰”，并由每个岛屿中表现最好的假设组成的新岛屿形成，鼓励岛屿之间的优点“重组”。LLM-SR采用了类似的基于岛屿的进化算法。SGA将其作为“进化搜索”，即在每次迭代中生成多个后代并保留最佳选择。他们还采用了进化交叉，其中LLMs从各种过去的实验中生成新的假设，以更好地进行探索。MOOSE-Chem将其设计为“进化单元”，以更好地关联背景知识和灵感知识。具体来说，给定背景和灵感知识，他们首先生成多个独特的假设来关联两者。然后每个假设独立细化，最后将细化的假设重新组合，以更好地将背景和灵感知识整合成一个连贯的假设。它鼓励从相同输入中进行不同的突变变体，并汇集每个突变变体的优点。利用多个灵感。这里讨论的“利用多个灵感”（LMI）组件是关于明确识别多个灵感，以便这些识别的灵感将被全部利用到最终假设中（例如，以顺序方式）。这很重要，不同的方法有不同的原因。MOOSE-Chem是第一个引入这一组件的，动机是观察到许多学科如化学和材料科学通常需要多个灵感来制定一个完整且可发表的假设。具体来说，他们将看似无法解决的问题P(hypothesis|research background)分解为许多更小、更实际和可执行的步骤。他们通过为分解制定数学证明来实现这一点。一般来说，较小的步骤涉及识别起始灵感，基于背景和灵感组成初步假设，找到另一个灵感以解决初步假设中的空白，然后使用新灵感组成更新的假设，依此类推。他们通过利用多个灵感的目标是重新发现发表在《自然》或《科学》等高影响力期刊上的化学和材料科学假设。除了MOOSE-Chem，Nova还以连续的方式检索多个灵感，但目标不同，即生成更多样化和新颖的研究假设。他们的动机来自IGA的实验结果，即生成的假设的多样性趋于饱和。他们确定主要原因之一是输入背景信息相同，而结合不同的灵感集可以通过引入灵活的输入在很大程度上缓解这一问题。假设排名。这一关键组件是关于提供生成假设的完整排名。这很重要，因为LLMs可以在短时间内生成大量假设，而验证每个假设的真实实验室实验既耗时又昂贵。因此，科学家们知道应该首先测试哪个假设将非常有益。一些方法（例如MOOSE）采用自动评估方法来提供对生成假设的初步理解。自动评估方法自然可以用于排名，但表1仅关注排名在方法论部分的使用方式（而不是在自动评估部分）。大多数方法采用LLMs的评分作为奖励值，可以用于排名（MCR [145], AIScientist, MOOSE-Chem, CycleResearcher）。FunSearch专注于代码生成问题，因此可以直接通过运行代码并检查结果来精确评估生成的代码。ChemReasoner[146]微调了一个任务特定的图神经网络模型以获得奖励。HypoGeniC[193]和LLM-SR[140]专注于数据驱动发现，这意味着他们可以访问观察示例，用于检查与生成假设的一致性，其中一致示例的数量可以用作排名的奖励值。与直接预测奖励分数不同，IGA采用成对比较，因为他们发现当直接要求预测最终分数或决策时，LLMs的校准效果较差，但在要求判断哪篇论文更好时可以达到非平凡的准确性。受IGA[141]启发，CoI[77]提出了一个成对自动评估系统，名为Idea Arena。Nova[49]也采用了成对自动评估方法。自动研究问题构建。这一关键组件是关于自动构建研究问题，以便自动化科学发现方法可以将其作为输入来发现假设。这表明LLM系统在科学发现中的不同角色：没有它，LLM作为副驾驶，依赖研究人员提出好的研究问题；有了它，系统以“全自动驾驶”模式运行，能够独立发现而无需人工输入。“全自动驾驶”模式首先由MOOSE引入，并被视为科学发现的“自动化”设置。具体来说，他们采用基于LLM的代理不断搜索与学科相关的网络语料库以找到有趣的研究问题。AIScientist通过利用起始代码实现作为输入来探索研究方向。MLR-Copilot通过分析输入论文的研究空白来找到研究方向。SciAgents和Scideator通过直接基于概念配对生成假设来跳过研究问题。VirSci通过利用基于LLM的科学家代理进行头脑风暴来生成研究问题。CoI通过收集方法的发展线并预测下一步来找到研究问题。Nova直接从输入论文和常见想法提案模式生成种子想法，跳过研究问题构建步骤。

**2.3.2 其他方法

在本节中，我们介绍了与“主要轨迹”中的方法不同的方法（§2.3.1）。这些方法本身非常多样化，专注于科学发现的不同方面。例如，Dong等人[30]尝试使用GPT-4解决极具挑战性的研究问题：“P是否等于NP”。他们提出了“苏格拉底推理”，鼓励LLMs递归地发现、解决和整合问题，同时促进自我评估和细化。他们的方法在尝试证明一个极具挑战性的现有假设时可能有用。IdeaSynth[118]是一个研究想法开发系统，将想法概念表示为画布上的链接节点。其效果在一个人机交互场景中进行了调查。他们通过实验室研究发现，使用IdeaSynth的人类参与者可以探索更多替代想法，并与使用强大LLM基线的参与者相比，扩展初始想法的细节。Liu等人[96]首次尝试将基于文献的发现和数据驱动发现统一起来。给定一组初始实验结果，它检索相关文献并采用迭代细化方法，不断改进假设以使其与实验结果一致，并利用检索到的文献中的发现。Weng等人[167]提出了一个双系统，包括CycleResearcher和CycleReviewer，其中CycleResearcher负责想法制定和论文写作，CycleReviewer负责对撰写的论文进行评分。双系统具有协同作用，CycleReviewer的评分可以组成偏好数据来训练CycleResearcher。双系统仅专注于想法制定和论文写作，跳过实验规划和实施。Li等人[80]提出了微调LLMs以成为更好的想法生成器，并引入了一个新颖的框架，采用两阶段方法结合监督微调（SFT）和可控强化学习（RL）。他们专注于可行性、新颖性和有效性维度。维度控制器能够动态调整生成过程。

基准

总的来说，自动化科学发现中的任务可以分为“基于文献的发现”和“数据驱动发现”。研究人员分别为每个任务设计了不同的基准。

**2.4.1 基于文献的发现

基于文献的发现通常是关于连接现有出版物中的知识（片段）并将它们关联起来以创造新知识。在这个过程中，起始知识来自研究背景。研究背景可以看作由两个部分组成：（1）一个研究问题，和（2）一个背景调查，讨论研究问题的最先进方法或知识。有了研究背景中的起始知识，其他要连接的知识通常是通过搜索现有出版物获得的。这里的其他知识被称为“灵感”[159, 174]。然后研究背景和检索到的灵感被关联起来以创建一个“假设”。表2总结了基于文献的发现基准，旨在实现新颖的科学发现。关键组件是研究问题、背景调查、灵感识别和假设。假设从“摘要”部分[159]、“方法论”部分[174, 176]或“未来工作”和“局限性”部分[68]收集。表2还包括数据集的大小（分析的论文数量）、论文的学科和论文的发表日期。一些基准可以用于训练，因为它们的大小较大[119, 159]，而一些主要用于评估，因为它们由博士生注释[68, 174, 176]。

**2.4.2 数据驱动发现

Majumder等人[107]提出了“数据驱动发现”的概念。这里的“数据”指的是实验结果。他们的动机是，鉴于大量（公开和私人的）现有实验结果在线可用，LLMs可能能够找到这些数据的一般模式，其中一般模式可能是一个新颖的研究假设。鉴于具体观察与一般假设之间的关系，“数据驱动发现”与归纳推理任务非常相关，其中观察空间是网络上所有公开可用的实验结果和手头的私人实验结果。DiscoveryBench[108]是第一个数据驱动发现基准。它包含从20多篇已发表论文中手动提取的264个发现任务和903个合成任务。任务的输入包括一个研究问题和一组实验数据。目标是回答研究问题，并提供一个可以由实验数据支持的假设。它还引入了生成假设的结构化形式化，即假设应由三个部分组成：上下文、变量和关系。具体来说，假设是关于在上下文中两个变量之间的关系。DiscoveryWorld[57]是第一个具有虚拟环境的发现基准。其主要动机有两个：（1）真实世界的实验成本高昂且需要大量领域专业知识；（2）从任务特定细节中抽象出来鼓励开发更通用的发现方法。为了解决这些挑战，它建立了一个虚拟环境，供代理发现假设。它包括120个不同的挑战任务，其中假设反映了世界的真实模式。

评估发展趋势

科学发现任务的评估方法多种多样。可以说，几乎每篇提出新方法论的论文都使用了不同的评估方法。然而，它们的指标表现出显著的交叉点，并且可以观察到这些工作中评估方法的一些新兴趋势。评估标准的交叉点是“新颖性”、“有效性”、“清晰度”和“显著性”。一些较少使用的评估标准包括“相关性”、“趣味性”和“有用性”。“有效性”的替代名称是“可行性”。在许多情况下，它们可以互换使用。“有效性”指的是发现的科学知识是否准确反映客观世界，而“可行性”关注工程发现的实用性。“有用性”是一种主观评估，基于发现系统的目标是作为研究人员的副驾驶；因此，研究人员对其感知的有用性可能被认为是重要的。在评估者选择方面，评估方法可以分为基于LLM的评估和基于专家的评估。LLM的直接评估在社会科学中显示出与专家评估的高度一致性[174]。然而，在自然科学学科如化学中，LLMs被认为缺乏提供可靠评估的能力[146]。专家评估通常被认为是可靠的。然而，在化学等具有挑战性的领域，即使是专家的直接评估也可能缺乏足够的可靠性[176]。这是由于（1）学科的复杂性；（2）研究主题的微小变化可能需要完全不同的背景知识进行评估，而专家通常有专门的研究重点，可能无法涵盖相对可靠评估所需的全部知识。基于参考的需要，评估方法可以分为直接评估和基于参考的评估。由于直接评估的可靠性问题，基于参考的评估作为一种替代方法[68, 108, 176]，它计算生成假设中提到的关键组件与真实假设的匹配程度。此外，除了直接为生成的假设分配标量评估分数外，Si等人[141]提出了基于比较的评估，以缓解LLM直接评分评估的不足：要求LLM评估者不断比较生成的假设对，直到可以进行排名。它可以在比较两种方法生成的假设质量时使用，但可能无助于判断假设的绝对质量。然而，最终的评估应仅通过真实（湿实验）实验进行。这给机器人技术和自动实验实施领域带来了挑战。

主要进展/成就

Yang等人[174]首次证明了LLMs能够生成新颖且有效的科学假设，并通过专家评估确认。他们找到三名社会科学博士生直接评估生成的社会科学假设的新颖性和有效性。然后Si等人[141]提供了第一个关于LLM生成假设的大规模专家评估，雇佣了100多名NLP研究人员。他们得出了一个统计学上显著的结论，即LLM可以生成比人类研究人员更新颖但略逊于有效性的研究假设。然后Yang等人[176]表明，基于LLM的框架可以重新发现2024年发表在《自然》、《科学》或类似水平上的许多化学和材料科学假设的主要创新（这些假设仅在2024年在线提供），使用仅在2023年10月之前的数据训练的LLMs。

挑战与未来工作

挑战。科学发现是找到尚未通过湿实验验证的新知识。在某些学科如化学中，即使是专家对生成的新颖假设的评估也不够可靠。这导致需要自动进行实验以验证大规模机器生成的假设。此外，当前的科学发现方法高度依赖现有可用LLMs的能力。在通用任务上能力更强的LLMs通常也能导致发现质量更好的假设[174]。因此，基于LLM的发现方法可能有一个性能上限，受限于最先进LLMs的能力。然而，我们如何增强LLMs在科学发现任务上的能力在很大程度上（如果不是完全）尚不清楚。第三，目前尚不清楚科学发现的充分内部推理结构：当前的工作严重依赖从高质量知识源（例如文献）中检索灵感以生成假设。但尚不清楚是否有任何更多的内部推理结构可以帮助这一过程。最后，构建准确且结构良好的基准高度依赖专家。然而，专家组成的基准的规模通常非常有限。目前尚不清楚如何扩展一个准确且结构良好的面向发现的基准。未来工作。第一条未来工作方向是增强自动实验执行，因为它仍然是测试假设有效性的最可靠方法。这一过程可能因学科而异。在计算机科学中，瓶颈可能是编码能力，尤其是编程大型系统的能力。在化学或生物学中，瓶颈可能在于进行实验的机器人技术方法[14]。第二条未来工作方向是增强LLM在假设生成中的能力。目前，如何提高这一能力仍不十分清楚。可能的方面包括训练数据收集方法和训练策略。第三条未来工作方向是研究科学发现过程的其他内部推理结构。这可能需要一个跨学科的努力，涉及科学哲学（也称为科学学）[36]。第四条未来工作方向是研究如何利用LLMs自动收集准确且结构良好的基准。

3. LLMs在实验规划与实施中的应用

概述

除了生成假设外，LLMs越来越多地用于科学研究中，以自动化实验设计并简化工作流程。LLMs具有全面的内部世界知识，使它们能够在没有特定领域数据训练的情况下在现实世界中执行明智的行动。为了最大化其潜力，LLMs被设计为基于代理的形式，具有两个关键属性[64]：模块化和工具集成。模块化确保LLMs可以与外部系统（如数据库、实验平台和计算工具）无缝交互，而工具增强框架使LLMs能够作为工作流程中的中央控制器，与专门模块接口，用于数据检索、计算和实验控制。本节探讨了LLMs如何具体应用于支持研究想法的规划和实施。

优化实验设计

LLMs通过使科学研究中的工作流程更高效和自适应，正在改变实验设计过程。它们处理和分析大量数据集的能力使研究人员能够分解复杂任务，选择最佳方法，并增强实验的整体结构。本节探讨了LLMs如何在不同领域中促进实验设计优化。任务分解涉及将实验分解为更小、可管理的子任务，这一过程通常由现实世界研究的复杂性所必需，以确保与特定研究目标的一致性[55]。许多研究[14, 15, 52, 125, 136, 168]展示了LLMs如何通过定义实验条件和指定期望输出来简化复杂问题。例如，HuggingGPT[136]利用LLMs将用户查询解析为结构化任务列表，同时确定执行顺序和资源依赖关系。同样，CRISPR-GPT[52]通过促进选择适当的CRISPR系统、设计引导RNA、推荐细胞传递方法、起草协议和规划验证实验，自动化了基于CRISPR的基因编辑实验设计。ChemCrow[15]采用迭代推理和动态规划，使用结构化的“思考、行动、行动输入、观察”循环[177]根据实时反馈改进其方法。多LLM系统，如Coscientist[14]和LLM-RDF[131]，进一步利用专门代理从文献中提取方法，将自然语言描述翻译为标准协议，生成自动化平台的执行代码，并在执行过程中自适应地纠正错误。高级提示技术，如上下文学习、思维链[166]和ReAct[177]，通常用于上述研究中，以增强LLM辅助工作流程中实验规划的可靠性和准确性。此外，LLMs还能够通过反思和细化[106, 139]增强实验设计，这一过程使它们能够持续评估和改进实验计划。例如，通过模拟专家讨论，LLMs参与协作对话[81]，挑战假设，并通过迭代分析[90]改进其输出。这种方法模仿了现实世界中的科学问题解决，其中专家意见之间的差异促进了问题空间的深入探索，并通过严格的辩论和综合不同观点达成共识。

自动化实验过程

LLMs通过自动化实验过程中的重复和耗时的任务，彻底改变了科学研究。这种自动化显著提高了生产力，使研究人员能够将数据准备、实验执行、分析和报告等劳动密集型过程委托给基于LLM的系统[158]。

**3.3.1 数据准备

研究中最耗时的方面之一是数据准备，包括清理[185, 21]、标记[153, 196]和特征工程[46]等任务。大语言模型（LLMs）可以自动化这些过程，特别是在处理大型数据集时，手动数据整理将效率低下。此外，在数据难以获得的情况下，LLMs可以直接合成实验数据[82, 85, 98]。例如，在社会科学中，进行人类受试者实验通常既昂贵又不道德，Liu等人[98]设计了一个沙箱来模拟社交环境，并部署了多个代理（LLMs）进行交互。这种方法使研究人员能够收集代理社交互动的数据以进行后续分析。

**3.3.2 实验执行与工作流程自动化

为了自动化科学研究中的实验工作流程，基于LLM的代理可以通过预训练[95, 128]、微调[44, 35]和工具增强学习的组合获得任务特定能力。在大规模数据集上的预训练提供了基础知识，而在领域特定数据集上的微调则针对目标科学应用改进了这些知识。为了增强任务执行，LLMs通常与领域特定知识库[14, 15, 157]或预配置的工作流程[99, 14]结合使用。高级提示技术，如上下文学习和思维链提示[99, 179]，使LLMs能够快速适应新的实验协议。此外，具有任务特定反馈循环的迭代调整允许LLM根据实验目标改进其输出[124, 179]。基于这些原则，LLM在不同学科中自动化实验工作流程中扮演了多样化的角色。在化学中，ChemCrow[15]，一个LLM化学代理，利用18个专家设计的工具自主规划和执行复杂的化学合成，桥接计算和实验领域。同样，Coscientist[14]将LLM与实验室自动化集成，优化如钯催化合成等反应。LLMs还被用于进化搜索策略，以探索广阔的化学空间[157]，从而在减少实验负担的同时识别候选分子。Ramos等人[124]将自然语言输入与贝叶斯优化相结合，用于催化剂合成，简化了迭代设计周期。此外，LLMs还被用于假设情景测试和反应设计，通过假设预筛选最小化实验迭代[145, 146]。在药物发现中，ChatDrug[99]集成了提示、检索和领域反馈模块，以促进药物编辑，而DrugAssist[179]通过人机对话迭代优化分子结构。在生物和医学研究中，如ESM-1b[128]和ESM-2[95]等模型编码蛋白质序列，捕捉结构特性以进行预测任务，如二级和三级结构预测，消除了劳动密集型实验的需要。通过在蛋白质家族上微调LLMs，Ferruz和Hocker[35]生成了高度多样化但功能性的蛋白质序列。此外，He等人[44]引入了一种抗体生成LLM，用于从头设计SARS-CoV-2抗体，实现了特异性和多样性，同时减少了对天然抗体的依赖。

**3.3.3 数据分析与解释

除了自动化实验执行外，LLMs还通过生成自然语言解释和构建有意义的可视化来协助数据分析，这对于解释复杂数据集并确保得出的见解可访问和可操作至关重要[143]。传统上，数据分析需要广泛的统计专业知识、手动计算和大量实验结果的解释。LLMs通过自动化统计建模和假设检验等任务简化了这一过程。例如，Li等人[79]展示了LLMs可以作为建模者，提出、拟合和细化基于现实世界数据的概率模型，同时通过后验预测检查等技术提供关于模型性能的关键反馈。此外，LLMs擅长揭示文本数据中的隐藏模式、趋势和关系。在社交媒体数据分析中，LLMs提供了对公众情绪和新兴趋势的见解[172]，在环境数据解释中，它们有助于提高理解和决策能力[114]。此外，它们还在主题分析[27, 126]中发挥了重要作用，帮助识别定性数据中的主题和模式。它们的应用还扩展到金融数据分析，增强了预测和风险评估能力[188]。AutoGen[168]提供了一个通用框架，使多个可定制代理（LLMs）能够创建多样化的应用程序。这些代理可以通过自然语言和代码进行交互，支持广泛的下游任务，如数据建模和数据分析[61]。

基准

基准对于评估LLMs如何有效支持实验工作流程的各个方面至关重要。虽然并非专门为LLM辅助的实验实施创建，但许多基准足够通用，可以应用于这些任务。例如，MLAgentBench[54]涵盖了任务分解，帮助分解复杂的研究任务，数据处理，自动化数据加载和转换等过程，以及工作流程管理，优化机器学习实验执行。这些基准提供了不同的途径，因此在方法上有所不同。评估方法从任务成功率、准确性和执行一致性到与人类基准的比较。这些差异突出了LLMs可以集成到研究过程中的多种方式。表3中提供了更多详细信息。

挑战与未来工作

挑战。将LLMs用于实验规划和实施的挑战既来自其固有局限性，也来自其在领域特定任务中的应用。一个基本限制是它们的规划能力。正如Kambhampati等人[64]所澄清的那样，处于自主模式的LLMs通常无法生成可执行的计划。它们容易产生幻觉，这可能导致不合理的计划、偏离任务提示或无法遵循复杂指令[55]。在多阶段实验环境中，提示的鲁棒性构成了另一个关键挑战。提示措辞的微小变化，即使传达了相同的意图，也可能导致整个规划和执行过程中的指导不一致[195]，可能影响实验结果。此外，自回归LLMs的慢处理速度可能会阻碍迭代和多步骤实验规划中的实时反馈，限制其效率。应用特定挑战包括适应专门角色的困难，因为LLMs难以模拟领域特定的科学专业知识和认知过程，这对于跨研究领域的泛化至关重要[167]。例如，某些实验可能需要模拟伦理敏感或容易出错的场景，这通常与LLMs中嵌入的安全对齐价值观相冲突。未来工作。未来的研究应通过增强核心模型能力并针对实验任务的独特需求进行定制来解决这些挑战。为了减轻幻觉风险，可以在工作流程中集成稳健的验证机制，例如与外部声音验证器交叉引用输出[64]或采用实时反馈循环动态纠正不准确性[59]。提高提示鲁棒性可能涉及开发自适应系统，监控和修改提示结构以响应上下文变化，确保规划阶段的一致性。效率提升可以通过创建更快的、蒸馏版本的LLMs，优化多步推理或结合LLMs与更小的、任务特定模型的混合系统来实现，以平衡速度和准确性。为了更有效地适应角色，可以使用高质量领域特定数据集微调LLMs或开发模块化框架，以更精确地模拟专门科学推理。此外，设计自适应对齐协议可能允许LLMs在解决特定实验目标时安全地模拟伦理复杂场景。

4. LLMs在科学论文写作中的应用

概述

本节探讨了LLMs在科学论文写作中的三个关键领域的集成：引用文本生成（§4.2）、相关工作生成（§4.3）和起草与写作（§4.4）。我们研究了使用的方法、这些模型的有效性以及自动化科学写作中面临的挑战。此外，我们还讨论了这些任务中使用的评估指标和基准。

引用文本生成

在引用论文的上下文中，引用文本生成任务旨在为一组待引用论文生成准确的文本摘要。LLMs通过提供丰富的上下文理解和连贯性，在自动化引用文本生成的各个方面发挥了关键作用，采用了多种方法来增强准确性和可用性。Xing等人[170]的一项初步研究使用了一个指针生成器网络，该网络可以基于交叉注意力机制从手稿和引用论文的摘要中复制单词来生成引用文本。Li和Ouyang[88]提示LLM生成强调引用网络中论文对之间关系的自然语言描述。另一方面，像AutoCite[161]和BACO[40]这样的模型通过采用多模态方法，将引用网络结构与文本上下文相结合，生成上下文相关且语义丰富的引用文本。此外，Gu和Hahnloser[43]、Jung等人[63]允许用户指定诸如引用意图和关键词等属性，将这些属性集成到结构化模板中，并微调语言模型以生成符合其需求的引用文本。

起草与写作

在自动化科学写作领域，LLMs被用于从生成特定文本元素到撰写整篇研究论文的各种任务。对于更具体的写作任务，August等人[8]提出了生成具有可控复杂性的科学定义，以适应不同的受众，而SCICAP[48]则自动化了科学图表的标题生成，能够快速准确地描述视觉数据。更全面的系统，如PaperRobot[160]，引入了增量起草方法，LLMs根据用户输入帮助组织和起草论文的各个部分。同样，CoAuthor[73]采用了一种协作的人机方法，LLMs通过生成建议和扩展文本来帮助作者。对于完全自主的写作，Ifargan等人[56]探索了LLMs如何从数据分析到最终草稿生成完整的研究论文，而AutoSurvey[165]展示了LLMs通过综合和组织现有研究来自主撰写全面综述的能力。最后，AI Scientist[103]和CycleResearcher[167]提出了一个更广泛的系统，不仅起草科学论文，还参与了整个科学过程，包括假设生成和实验设计，突显了完全自动化科学发现和写作的潜力。

基准

我们总结了自动化科学论文写作系统的评估方法，涵盖三个关键领域：引用文本生成、相关工作生成以及起草与写作。表4提供了每个任务的具体数据集、指标和基准的全面总结。引用文本生成。ALCE[38]基准是主要标准。它从三个维度评估系统：流畅性、正确性和引用文本的质量。ALCE旨在测试模型在不同领域中生成带有准确引用的长文本答案的能力。其数据集涵盖了从维基百科到网络规模文档集合的广泛问题类型。CiteBench[37]是另一个基准，它统一了多个现有任务，以标准化引用文本生成在不同设计和领域中的评估，使用定性和定量指标。相关工作生成。目前，没有一个单一基准被普遍认可用于此任务，因为任务定义和简化假设在各种研究中存在巨大差异[89]。然而，大多数工作都建立在语料库级数据集上，常用的科学文章来源包括：ACL Anthology Network (AAN) Corpus[123]、SciSummNet[178]、Delve[5]、Semantic Scholar Open Research Corpus (S2ORC)[102]和Citation Oriented Related Work Annotation (CORWA)[86]。摘要指标ROUGE[93]是最常用的自动评估方法，一些工作还使用了翻译指标BLEU[115]。此外，人工评估通常从流畅性、可读性、与目标论文的一致性以及引用工作的相关性和信息量等方面进行评分，采用五点Likert量表。起草与写作。SciGen[111]基准支持从科学表格中进行推理感知文本生成的评估，突显了算术推理在文本生成中的挑战。SciXGen[22]是另一个关键基准，评估上下文感知的文本生成，重点关注将外部信息集成到生成文本中。SciGen和SciXGen都使用了如BLEU[115]、METEOR[10]和MoverScore[189]等指标，以及人工评估。

挑战与未来工作

挑战。引用文本生成、相关工作生成以及起草与写作中的挑战主要源于LLMs的固有局限性，如保持事实准确性、确保上下文连贯性以及处理复杂信息。LLMs经常在幻觉[59]方面遇到困难，生成不正确或不相关的引用，并且受限于它们依赖的检索系统[53]。有限的上下文窗口进一步限制了模型管理大量引用或全面整合相关文献的能力[165]，可能导致引用顺序错误和引用分组不当。此外，确保科学严谨性并避免依赖表面或琐碎来源仍然是持续存在的障碍，因为LLMs难以捕捉学术写作所需的深度和推理[103]。此外，LLMs在学术写作中的使用引发了重大的伦理问题，特别是关于学术诚信和抄袭[89]。这模糊了作者身份的界限，因为研究人员可能将机器生成的文本作为自己的作品呈现。LLMs还可能生成与现有文献非常相似的文本，增加了无意中抄袭的风险，生成的文本可能不够原创。使用LLMs起草论文部分的便利性可能会削弱传统学术写作所需的严格智力努力，潜在地贬低了学术研究中对学习过程和批判性思维技能的重视。未来工作。为了克服这些挑战，未来的进展应侧重于改进检索系统并增强模型从多样化、长上下文来源中综合信息的能力[87]。这包括开发更好的引用验证机制、改进多文档综合以及引入实时文献发现，以保持生成内容的最新性。此外，结合领域特定的微调和推理感知模型将有助于生成更准确、上下文相关的科学文本[111]。对写作过程的细粒度控制，如调整语气和风格，也将对提高LLMs适应不同学术需求的适应性至关重要[22, 38, 103]。此外，集成人在回路系统，其中人类监督和干预是写作过程的重要组成部分，可以确保学术工作中固有的智力严谨性和批判性思维得以保留[89, 109]。最后，为了解决潜在的伦理问题，学术界必须制定明确的指导方针和伦理标准，以确保学术工作的完整性和原创性。

5. LLMs在同行评审中的应用

概述

同行评审是科学研究的基石。将LLMs集成到同行评审过程中代表了一项重大进展，解决了长期存在的挑战，如评审者偏见、标准不一致和工作量不平衡[42, 117]。这种集成在学术界获得了显著关注，正如主要计算机科学会议采用LLM辅助评审实践所证明的那样。例如，ICLR 2025宣布实施基于LLM的系统以支持评审者的评估过程。LLMs在同行评审中的集成已经演变为两种不同的方法，每种方法都针对评审过程中的特定需求。第一种方法，自动化评审生成，源于处理日益增加的提交量并通过使用LLMs独立分析研究论文来减少评审者工作量的需求[66, 182]。这些系统旨在评估提交的多个方面，包括方法验证、结果验证和贡献评估，从而在没有直接人工干预的情况下提供全面的评审报告。第二种方法，LLM辅助评审工作流程，是在认识到人类专业知识在学术评估中仍然至关重要的同时，承认某些评审任务可以从自动化中受益[69]。这些工作流程将LLMs作为补充工具，协助人类评审者完成耗时但定义明确的任务，如论文摘要、参考文献验证和内部一致性检查，同时将关键评估和判断留给人类专家。这些方法采用多种方法来提高评审效率、一致性和质量。为了系统地评估和改进这些系统，研究社区开发了专门的同行评审基准，这些基准具有双重目的：提供标准化的训练数据集并建立性能评估指标。本章探讨了这些方法、其评估框架，并总结了实施挑战和未来研究方向。

自动化同行评审生成

自动化同行评审生成旨在通过探索LLMs如何以最少的人工干预生成全面的评审来简化科学评估。通过输入科学文章，这些系统专注于生成完整的同行评审或元评审，采用各种技术来增强反馈的深度、准确性和相关性。当前的自动化同行评审生成方法可以分为两种主要策略：单一模型和多模型架构。单一模型方法通过复杂的提示技术和模块化设计优化评审生成过程。这些系统通常采用精心设计的提示，以引导模型关注论文的特定方面，如方法、结果和贡献[132]。在单一模型范式中，提出了几种不同的架构方法。CGI2[184]超越了之前的方法：MetaGen[11]使用了两阶段管道，包括提取摘要和决策感知的细化；Kumar等人[67]开发了一种神经架构，用于联合决策预测和评审生成；MReD[135]引入了使用句子级功能标签的结构控制生成。基于这些基础，CGI2通过模块化设计实现了分阶段评审过程，首先从论文中提取关键意见，然后总结优点和缺点，最后通过迭代反馈在清单引导的框架下细化这些输出。这种迭代过程增强了评审的深度和相关性，但可能难以处理涉及高度复杂方法或超出上下文窗口的长篇内容。采用不同方法，CycleReviewer[167]使用强化学习实现了端到端的评审生成方法，通过反馈循环不断改进评审质量。虽然CycleReviewer在提高评审精度和清晰度方面表现出色，但其对大量计算资源的依赖可能限制其可扩展性。同时，ReviewRobot[162]利用知识图谱系统地识别和结构化知识元素，通过结构化生成过程将其转化为详细的评审评论。ReviewRobot展示了显著的可解释性和基于证据的推理，但其预定义模板的灵活性限制了其适应性。另一种策略采用多模型架构，通过利用多个专门模型来处理评审过程的不同方面，代表了一种更复杂的方法。这种方法提供了几个优势，包括更好地处理复杂论文和通过专门知识增强评审质量。Reviewer2[39]实施了两阶段过程：一个模型生成特定方面的提示，而另一个模型利用这些提示创建详细、有针对性的反馈。这种提示生成和评审创建的分离允许更细致和有针对性的反馈，但由于缺乏集成框架，通常会导致部分或偏见的评审。为了解决这些限制，SEA[180]采用了单独的模型进行标准化、评估和分析，提供了更全面和平衡的方法。该系统将多个评审统一为单一格式，显著减少了反馈中的冗余和不一致性。此外，SEA引入了不匹配分数来衡量论文与生成评审之间的一致性，并结合自我纠正策略以迭代方式提高评审质量。虽然这些功能使SEA在一致性和全面性方面超越了Reviewer2，但协调多个模型的输出增加了复杂性。基于专业化但解决不同挑战，MARG[28]解决了处理超出典型LLM上下文限制的论文的问题。通过引入多代理框架，MARG将评审任务分配给多个专门模型，允许对较长论文进行全面评审，同时在整个文档中保持对细节的关注。这种创新方法确保了详细、特定方面的反馈，但也带来了新的挑战，如协调各种代理的通信和输出，增加了确保一致性和对齐的难度。每种架构方法都提供了独特的优势并面临独特的挑战。单一模型方法受益于更简单的实现和对评审过程的更直接控制，但可能难以处理较长或更复杂的论文。多模型架构提供了更大的可扩展性和更好地处理复杂评审任务的能力，但它们需要仔细协调，并面临组件之间的一致性挑战。例如，ReviewRobot的结构化方法提供了可解释性和可操作的见解，但不太适应不断发展的研究领域，而CycleReviewer的迭代改进提高了动态适应性，而无需大量训练资源。随着这一领域的研究进展，结合单一模型的简单性和多模型设计的适应性，为提高评审质量、一致性和全面性提供了一个有前途的途径。

LLM辅助的同行评审工作流程

与完全自动化的评审生成不同，LLM辅助的同行评审工作流程专注于增强人类评审者的能力，而不是取代他们。最近的研究强调了这种人类-AI协作方法在学术同行评审中的关键重要性。[31, 12, 133]的研究强调，虽然LLM可以提高效率，但人类监督对于维护伦理标准和评审完整性仍然至关重要。像AgentReview[60]这样的系统在实践中展示了这种协同作用，其中LLM生成初步见解，人类评审者随后进行细化和验证。LLM辅助的同行评审工作流程增强了科学评审过程中的三个主要功能：（1）信息提取和摘要，帮助评审者快速掌握论文内容；（2）手稿验证和质量保证，支持系统验证论文主张；（3）评审写作支持，协助生成结构良好的反馈。在信息提取和摘要功能中，系统自动化文档理解和综合以支持评审者理解。PaperMage[101]是一个基础工具包，集成了自然语言处理和计算机视觉模型，处理视觉丰富的科学文档，实现了跨多种模态的逻辑结构、图表和文本内容的复杂提取。补充这种结构分析，CocoSciSum[29]专注于内容摘要，提供可定制的论文摘要，精确控制长度和关键词包含，同时通过其组合控制架构保持高事实准确性。对于手稿验证和质量保证功能，系统在不同分析层次上运作以确保科学严谨性。在局部层次上，ReviewerGPT[97]专门从事系统错误检测和指南合规性，在验证提交要求的同时有效识别单个手稿中的数学错误和概念不一致性。虽然ReviewerGPT专注于内部手稿验证，PaperQA2[144]通过检查主张与更广泛的科学文献进行全局验证，采用复杂的语言代理检测矛盾并验证断言。该系统通过识别每篇论文平均2.34个验证矛盾，同时在其跨文献分析中保持高事实准确性，展示了强大的性能。此外，Scideator[122]旨在促进想法验证，通过面重组识别论文之间的新颖和科学基础的类比。Scideator还包括一个新颖性检查器，评估主张的独特性和对既定研究范式的遵守，为评审者提供了增强的能力以严格审查手稿。在评审写作支持功能中，系统采取不同但互补的方法，协助不同专业水平的评审者。ReviewFlow[149]通过上下文反思提示和笔记综合指导提供智能支架，模拟专家实践以帮助新手评审者生成结构良好的评审。该系统的逐步方法通过将复杂任务分解为可管理的组件，使那些刚接触同行评审的人受益。虽然ReviewFlow专注于个别评审者指导，CARE[198]通过集成平台强调评审写作的协作方面，具有NLP增强的内联注释和实时协作功能，使评审者能够更有效地合作，同时提供详细和建设性的反馈[83, 19]。进一步补充这些功能，DocPilot[110]利用模块化任务规划和代码生成能力，自动化文档工作流程中的重复和复杂任务。其结构化方法管理和注释科学PDF，确保评审者可以专注于实质性反馈而不是程序障碍，显著提高了他们的效率。

基准

随着自动化评审生成和LLM辅助工作流程的不断发展，研究社区面临一个关键挑战：系统地评估和比较这些方法。这些基准的开发依赖于标准化的基准，评估LLM生成的评审的不同方面，从生成高质量评审到支持人类评审者的有效性。这些基准可以大致分为三种主要类型：（1）支持整体评估的综合评审数据集，包括编辑决策、评分和语用分析；（2）专注于特定方面的专门评估数据集，如意见综合和一致性分析；（3）通过缺陷识别和接受预测来衡量评审有效性的质量评估数据集。表5概述了这些关键基准及其相关的评估框架。这些数据集主要来自公开的学术会议，服务于同行评审任务中的多种目的。像MOPRD[94]和NLPeer[33]这样的综合数据集提供了广泛的覆盖范围，支持从编辑决策预测到语用标签的任务。更专门的数据集专注于评审过程的特定方面：ASAP-Review[183]和Reviewer2[39]强调接受预测和覆盖评估。最近的补充，如ReviewCritique[32]，引入了比较人类和LLM生成评审的新机制。这些基准的评估框架涵盖了多个维度，如表5所详述。语义相似性衡量生成评审与参考文本的接近程度，通常使用ROUGE和BertScore等指标。连贯性和相关性评估评审的逻辑流程和主题适当性，而多样性和特异性评估提供的反馈范围和深度。人工评估，结合专家对评审质量的评估，提供了自动指标的关键验证。这四个评估组件——语义相似性、连贯性和相关性、多样性和特异性以及人工评估——形成了一个多方面的评估方法，确保全面评估LLM生成的评审在各种质量维度上的表现。

挑战与未来工作

挑战。将LLMs集成到学术同行评审中代表了学术评估的重大转变[91, 92]。随着学术机构和出版商探索这项技术，理解其局限性和潜力对于学术界至关重要。同行评审的核心在于需要深厚的专业知识、细致的理解和谨慎的判断。虽然LLMs在支持这一过程中显示出潜力，但其局限性揭示了自动化学术评估的复杂性。一个基本挑战是LLMs通常难以完全掌握学术领域中的专门术语和复杂概念。例如，在生物化学中，LLMs可能会误解特定蛋白质相互作用的重要性，而在理论物理中，它可能无法识别数学模型中微妙但关键的假设[192]。这种有限的技术理解直接影响LLMs评估研究方法的能力。当LLMs无法完全理解领域特定概念时，它无法可靠地评估研究方法是否适当或证据是否支持结论。例如，在跨学科研究中，方法标准因领域而异，LLMs通常难以识别关键问题，如样本量不足、不适当的统计测试或缺失的实验控制[129]。这一限制在确保研究质量和科学完整性的高风险的同行评审中尤为令人担忧。学术写作的复杂性引入了额外的挑战，特别是在处理较长手稿时。即使上下文窗口扩展，LLMs也难以在跨多个部分的复杂论证中保持连贯分析。这一限制经常导致不一致或矛盾的评估[18]。更令人担忧的是幻觉的持续问题——模型有时会生成令人信服但不正确的评估，特别是在评审新颖研究方法时[28]。此外，在同行评审中实施LLMs面临超出技术性能限制的额外挑战。一个基本的基础设施问题是缺乏专门的训练数据[65, 184]，这在学术学科中造成了不平衡的格局。这种数据稀缺性特别影响了研究社区较小或词汇专门的领域。同样令人担忧的是LLM辅助同行评审的伦理影响。算法偏见和透明度问题[133]与新的学术不端行为形式一起出现，如“抄袭洗钱”[117]。此外，一个关键问题是，如果许多研究人员依赖相同的LLM系统进行同行评审，学术反馈的同质化潜力[91]。广泛使用类似的AI工具可能会减少观点的多样性，并削弱来自个体人类评审者独特思维过程的创造性见解。未来工作。为了推进LLMs在学术论文评审中的能力，必须优先解决几个基本技术挑战。首先，当前的LLMs在不同学术领域中的专门技术概念方面遇到困难，需要改进处理和理解领域特定术语的方法。其次，我们需要增强引用分析能力，以验证参考文献的相关性并评估引用如何有效支持论文的论点。第三，分析长学术文档需要新的方法来保持连贯性——从跨部分引用到验证方法、结果和结论之间的一致性。除了技术改进外，开发有效的人类-AI协作框架至关重要。下一代评审系统必须创建直观的界面，突出潜在问题并无缝集成到人类工作流程中[31]。这些协作系统必须适应不同的学术领域，特别考虑计算资源有限的学科[132]。对这些人类-AI系统的严格评估框架必须确保它们真正提高评审者的效率和有效性[81, 169]。随着LLM在同行评审中的普及，强大的治理机制变得至关重要。这包括开发可靠的方法来检测LLM生成的内容，确保透明跟踪LLM的贡献，并保持评审者的真实性[91]。此外，我们需要标准化的协议，以安全地将LLM评审工具与现有期刊平台集成[6]。最后，必须通过全面的评估框架来衡量这些领域的进展。对于技术能力，我们需要系统评估语言理解、引用分析和文档连贯性方面的改进。人类-AI协作指标应评估LLM建议的质量及其对评审者效率的影响。治理评估必须评估LLM检测系统的可靠性和平台集成的安全性。关键的是，这些框架应检查不同学术学科、出版格式和语言背景下的潜在偏见，以确保为所有学术社区提供公平的支持。通过这些有针对性的评估，我们可以指导LLM系统的开发，使其有意义地增强同行评审过程，同时保持其完整性。

6. 结论

本综述全面探讨了LLMs在整个科学生命周期中的变革作用，从假设生成、实验到写作和同行评审。通过识别将LLMs应用于这些任务的机遇和挑战，我们强调了它们当前的能力、局限性和增强科学生产力的潜力。总之，LLMs代表了先进的生产力工具，提供了现代科学研究所有阶段的新方法。尽管受到固有局限性、技术障碍和领域特定任务中的伦理考量的限制，LLM能力的持续进步有望彻底改变研究实践。随着这些系统的发展，它们集成到科学工作流程中不仅将加速发现，还将促进科学社区中前所未有的创新和合作。

成为VIP会员查看完整内容

1 引言

与现有综述的比较

本综述的结构

2. LLMs在科学假设发现中的应用

概述

科学发现的历史

**2.2.1 基于文献的发现

**2.2.2 归纳推理

方法的发展

**2.3.1 主要轨迹

**2.3.2 其他方法

基准

**2.4.1 基于文献的发现

**2.4.2 数据驱动发现

评估发展趋势

主要进展/成就

挑战与未来工作

3. LLMs在实验规划与实施中的应用

概述

优化实验设计

自动化实验过程

**3.3.1 数据准备

**3.3.2 实验执行与工作流程自动化

**3.3.3 数据分析与解释

基准

挑战与未来工作

4. LLMs在科学论文写作中的应用

概述

引用文本生成

相关工作生成

起草与写作

基准

挑战与未来工作

5. LLMs在同行评审中的应用

概述

自动化同行评审生成

LLM辅助的同行评审工作流程

基准

挑战与未来工作

6. 结论

相关内容