大型语言模型的快速发展已使其成为商业和国防应用中信息合成、决策支持和自然语言处理的重要工具。尽管这些模型具有流畅性和连贯性,但它们容易产生幻觉现象,并在不确定时仍表现出高度自信。本研究采用多模型实验设计来评估这些模型的可靠性和不确定性表达能力。通过五十项受控提示词对比,本研究测量了模型自报告置信度、信息熵、蕴含关系、中立性、矛盾性以及不确定性的显性表达。使用经多类型自然语言推理任务优化的DeBERTa第二版自然语言推理模型来评估各模型响应间的语义关系。该分析检验了每个模型在面对模糊或不可验证提示时明确承认不确定性的频率。研究结果揭示了三个模型之间存在显著的行为模式差异,这对军事应用具有重要影响——错误表述可能扭曲情报评估、政策建议和战略规划。本研究强调了建立稳健验证机制以减轻幻觉和过度自信的必要性。虽然大型语言模型作为受监督的决策支持工具具有潜力,但目前尚不适合在军事应用中自主部署。

人工智能技术正快速发展并迅速融入政府各部门、机构及众多企业的各个领域。然而,关于该技术在军事领域整合的讨论引发了关键关切,特别是在保障作战安全、确保符合国防部政策以及在高风险环境中减轻与幻觉、输出不一致和未经授权数据泄露相关风险方面。人工智能大型语言模型的益处是否超过潜在风险?答案是肯定的,但前提是其实施必须与军事目标战略对齐并接受严格监督。大型语言模型代表了人工智能领域的关键进展,这尤其得益于其广泛的商业应用以及在美国国防部内外日益增长的军事应用。其重要性体现在能够通过一系列功能提升部队效能,包括简化指令生成、解读指挥官意图以澄清下属任务、分析原始情报数据、起草报告以及在常规和时间敏感场景中加速指挥层级决策。将大型语言模型整合到军事行动中将使国防部在现代战争的多个领域获得信息处理和认知支持方面的决定性优势。反之,与任何尖端技术一样,必须密切关注可靠性、可解释性和政策合规性问题,以确保这项技术进步能够增强而非削弱任务效能。

人工智能涉及使计算机和机器能够模拟类人思维过程的科学和工程原理。在更窄的范围内,我们关注人工智能的一个特定组成部分——大型语言模型。大型语言模型是人工智能的一个组成部分,它采用统计模型分析特定数据集,使其能够生成从创意写作到信息性文章等多种内容。诸如ChatGPT、Gemini和Claude等大型语言模型已成为包括国防部在内的各行业的重要工具。然而,大型语言模型存在严重局限性,包括其产生幻觉(虚假或误导性信息)和输出不一致的倾向。此外,还存在这些模型能否遵守严格安全协议和政策的担忧,特别是在军事和国防作战等敏感环境中。

对国防部和其他高安全机构而言,大型语言模型的可靠性、一致性和安全性是关键关切。大型语言模型输出中的幻觉可能导致严重后果,例如操作错误和决策受损。此外,若没有明确执行政策约束,大型语言模型可能会无意中泄露敏感数据或生成未经授权的响应。本研究通过评估大型语言模型的一致性、事实准确性和政策合规性,调查其在政策驱动和安全敏感条件下的表现。通过比较ChatGPT、Gemini和Claude对个人和专业查询的响应,该研究旨在识别由幻觉和欺骗带来的风险,并为安全部署大型语言模型制定建议。

在大型语言模型部署领域中,一个日益紧迫的关切不仅是幻觉出现的频率,更是模型不愿或无法表达不确定性或承认未知情况。在人类决策中,特别是在军事行动等高风险环境中,在信息不完整时保留判断的能力往往是专业性和谨慎的标志。相反,大型语言模型被设计为优先提供流畅的响应,这通常是通过训练学习得到的最可能响应,这常常导致它们生成听起来自信但错误的答案,而非公开承认信息缺口。这种倾向创造了可靠性的危险错觉。在涉及人员安全、作战完整性和国家安全的军事环境中,这种无法表达不确定性的情况可能导致虚假数据被无意中合法化。大多数用户没有接受过识别大型语言模型何时产生“幻觉”或超越其知识边界操作的培训,这使得问题更加复杂。与可以用“我不确定”或“这需要进一步验证”等短语来限定或前言其陈述的顾问或分析师不同,大多数大型语言模型未被校准为默认使用类似修辞。本研究特别关注这一行为盲点,通过检查每个模型(ChatGPT、Gemini和Claude)在人类可能会犹豫的语境中拒绝回答、限定响应或表达不确定性的频率。理解这些系统如何处理无知与它们如何处理知识同样重要。

缩小关注点到大型语言模型承认不确定性的意愿,对于评估它们对关键任务应用的准备程度至关重要。如果一个模型在应该推迟或标记数据缺失时持续编造答案,那么在依赖可验证信息的情报、指挥控制或后勤系统中,它将成为一种负担。这种行为通过危及信任来破坏旨在加强军事行动的技术进步,如果得不到控制,可能导致系统性错误。因此,本研究引入了一个不仅评估准确性而且测量置信度对齐的基准。即模型表达的置信度与实际答案可验证性之间的对应程度。模型产生高置信度虚假信息的情况被标记为特别危险,而模型适当表达局限的情况被视为可信行为的积极迹象。通过分析多个模型和查询类型的这些趋势,该研究探讨了某些大型语言模型是否更容易过度自信,以及设计差异(即训练)是否影响这种倾向。最终,这一视角支持在国防环境中更细致地风险评估,这些环境不仅要求能力,还要求谨慎。

问题陈述

大型语言模型正日益用于可靠性和安全性不容妥协的关键环境。尽管取得了进步,这些模型仍容易产生事实不正确、误导性或不可验证的幻觉陈述。在军事和国防背景下,此类错误构成重大风险,包括作战受损、错误信息以及对人工智能系统信任的崩溃。大型语言模型通常因其流畅性和连贯性而被评估,但缺乏对安全相关政策的严格评估。

目前,没有普遍接受的标准化框架来评估大型语言模型在政策敏感环境中的表现,特别是关于它们提供一致、安全和可验证响应能力方面。没有适当评估,大型语言模型可能继续传播幻觉数据并违反安全协议,导致操作风险和战略漏洞。本研究通过开发一个全面的评估方法来测试大型语言模型响应,以解决这些差距。该研究旨在评估大型语言模型输出中的幻觉存在,重点关注识别与欺骗和错误信息相关的风险。

除了幻觉风险,本研究还解决了一个经常被忽视的行为关切:大型语言模型能否承认它们缺乏知识。在许多情况下,这些模型即使在数据模糊或不完整时也会产生自信的响应。这种行为可能不会触发明显的政策违规,但在确定性必须赢得而非假设的军事环境中,仍可能导致危险结果。无法表达不确定性破坏了信任,并引入了一种独特的风险形式:虚假信息的可信呈现。因此,本研究不仅评估大型语言模型输出的准确性,还评估它们限定答案、表示怀疑或推迟响应的能力。它引入了一个行为基准,将置信水平与事实可验证性进行比较。模型无法将其确定性与内容可靠性对齐代表了一个关键失败。识别这一差距有助于完善国防行动中大型语言模型的未来部署标准。

如果得不到解决,这种行为差距可能对多个关键任务领域产生连锁影响。在情报分析中,高置信度的虚假信息可能误导威胁评估或扭曲目标优先级。在指挥控制环境中,未经限定的输出可能损害操作时机或在命令和态势更新中引入模糊性。在后勤系统中,伪造数据可能影响资源分配或战备规划,最终危及人员安全和战略结果。 除了功能中断,人工智能系统的过度自信可能侵蚀指挥链中的信任,导致要么过度依赖有缺陷的系统,要么未充分利用缺乏互操作性的工具。这不仅造成技术问题,还引发具有严重影响的人机信任问题。这些风险在联合和联盟环境中会放大,其中共享信息期望在所有网络中准确、安全和可验证。因此,理解大型语言模型在面临知识限制时的行为方式至关重要,不仅为了技术改进,也为了作战可靠性。

为应对这一多领域挑战,本研究引入了一种评估方法,专注于模型表达置信度与其内容可验证性之间的对齐。通过涵盖军事、历史和推测性背景的结构化提示,本研究检查了大型语言模型选择回答与推迟的频率,以及它们的确定性与输出事实正确性的对齐程度。特别关注产生高置信度幻觉的模型,这些被视为危险。反之,模型适当表达怀疑、前言其主张或拒绝响应的情况被视为谨慎的积极指标。通过比较ChatGPT、Gemini和Claude的输出,该研究探讨了模型架构或训练方法是否影响这些行为模式。这种准确性和自我意识的双重视角旨在为确定大型语言模型是否准备好部署于国防背景提供更稳健基础。最终,研究结果旨在为具有安全意识的整合策略提供信息,该策略不仅优先考虑模型知道什么,还优先考虑它如何沟通不确定性。

目的陈述

本研究的目的是评估大型语言模型(如ChatGPT、Anthropic Claude、Google Gemini)在面对超出可验证知识范围的提示时的表现。随着这些模型日益融入决策支持系统,特别是在军事和国防背景下,它们识别自身限制的能力至关重要,因为它们的输出必须准确、可验证且符合政策。虽然大型语言模型因流畅性和多功能性而受到赞誉,但它们产生自信但不正确信息(也称为幻觉)的倾向在高风险环境中引入了严重风险。本研究不仅关注信息是否正确,还关注模型处理可能根本不存在正确答案的情况的方式。在类似情况下,负责任的行为应包括拒绝回答、表达怀疑或明确标记响应的推测性质。理解大型语言模型何时、如何以及是否展示这种克制是评估其可信度的核心。现有评估很少考虑这一行为方面,使得本研究成为关于人工智能可靠性讨论的必要扩展。该研究回应了日益增长的关切,即大型语言模型可能在意不确定或虚构场景中以虚假自信无意中误导用户。

该研究基于这样一种信念:对语言模型可靠性的最关键测试不仅是其产生答案的能力,更是其识别何时不应回答的能力。在许多现实世界场景中,特别是在国防和情报领域,不完整或模糊信息是常态。一个无法承认不确定性的系统构成独特风险,因为它可能产生听起来权威但事实毫无根据的输出。因此,本研究引入了一个行为基准来评估模型置信度与其输出的实际可验证性之间的对齐程度。重点是模型如何通过拒绝、前言或限定陈述来发出不确定性信号。识别这些行为对于理解有用协助和误导性过度自信之间的阈值至关重要。它还提出了关于当前大型语言模型设计是鼓励真实性还是仅仅优先考虑语言合理性的问题。本研究寻求提升谨慎作为模型评估核心组成部分的重要性。

本研究的核心贡献是一个行为视角,用于评估大型语言模型在存在未知、模糊或虚构构造的领域中的表现。本研究并未将此类场景视为异常值,而是将其视为揭示模型更深层次操作趋势的基本测试案例。通过关注大型语言模型如何处理知识缺失,该研究提供了一个超越传统准确性指标的框架。它将无知的处理定位为可信度的重要指标,特别是在关键任务环境中,用户必须依赖人工智能输出来通知时间敏感或高风险决策。由此产生的见解旨在指导开发人员、政策制定者和军事决策者确定哪些模型展示了安全部署所需的克制、意识和对齐。通过这样做,这项工作重新定义了大型语言模型“可靠”的含义。

最终,本研究通过探讨模型行为中一个鲜被关注的维度,为人工智能治理与操作安全领域的持续对话作出贡献。随着自动化与决策制定之间的界限日益模糊,对能够负责任地应对不确定性的系统的需求变得愈发紧迫。无法表达自身局限性的大型语言模型可能会被赋予超出其实际能力的权威性,这不仅在技术层面,更会给所有部门带来制度性风险。这项工作的长期目标是通过识别那些能提升而非削弱操作完整性的行为模式,支持将大型语言模型安全整合到国防与国家安全工作流程中。通过强调自信的回答与负责任的回应之间的本质区别,本研究呼吁转变对人工智能成熟度的衡量标准——不仅要关注其掌握的知识范畴,更要考察其如何处理认知边界之外的未知领域。

成为VIP会员查看完整内容
1

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
【2022新书】深度学习归一化技术,117页pdf
专知
28+阅读 · 2022年11月25日
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员