● 这是首份国际人工智能安全报告。继2024年5月的临时出版物后,96位人工智能(AI)专家参与了这份完整报告的撰写,其中包括由30个国家、经济合作与发展组织(OECD)、欧盟(EU)和联合国(UN)提名的国际专家顾问小组。报告旨在提供支持知情决策的科学信息,然而并不推荐具体的政策。 ● 这份报告是独立专家的工作。由报告主席领导,撰写报告的独立专家们在内容上拥有完全的自由裁量权。 ● 虽然本报告关注人工智能的风险和安全问题,但人工智能同样为个人、企业和社会提供了许多潜在的好处。人工智能有很多种类型,每种类型的好处和风险各不相同。在大多数情况下,大多数应用中,人工智能帮助个人和组织提高效率。但只有在妥善管理人工智能的风险后,全球人民才能够安全地充分享受其众多潜在好处。本报告的重点是识别这些风险,并评估减轻风险的方法。报告并不旨在全面评估人工智能可能带来的所有社会影响,包括其许多潜在的好处。 ● 本报告的重点是通用人工智能。报告将重点限制在一种近年来发展特别迅速,且相关风险研究较少、理解较少的人工智能类型:通用人工智能,即可以执行各种任务的人工智能。报告中的分析聚焦于当前最先进的通用人工智能系统,以及未来可能具备更强能力的系统。 ● 本报告总结了关于三个核心问题的科学证据:通用人工智能能做什么?通用人工智能的风险有哪些?针对这些风险有哪些缓解技术? ● 风险巨大。我们这些参与本报告的专家在许多关于通用人工智能能力、风险和风险缓解的议题上依然存在分歧,无论是小问题还是大问题。但我们认为,本报告对于改善我们对这项技术及其潜在风险的集体理解至关重要。我们希望本报告能够帮助国际社会在通用人工智能问题上达成更大的共识,并更有效地减轻其风险,从而使人们能够安全地体验其许多潜在好处。风险巨大,我们期待继续推动这一工作。
报告撰写后人工智能最新进展:主席声明
在本报告的写作期结束(2024年12月5日)与报告发布(2025年1月)之间,发生了一项重要进展。人工智能公司OpenAI分享了一个新AI模型o3的早期测试结果。这些结果表明,o3在多个领域最具挑战性的编程、抽象推理和科学推理测试中表现出显著优于任何先前模型的能力。在某些测试中,o3的表现超越了许多(但不是所有)人类专家。此外,它在一项关键的抽象推理测试中取得了突破,许多专家,包括我自己,都曾认为这一突破直到最近都难以实现。然而,在撰写本报告时,关于o3在现实世界中的能力,特别是在解决更开放性任务方面,尚无公开信息。 o3的测试结果表明,人工智能能力的进展速度可能依然保持较高水平,甚至可能加速。更具体地说,这些结果表明,为了解决某个特定问题,赋予模型更多的计算能力(即“推理扩展”)可能有助于克服以前的限制。一般而言,推理扩展使得模型的使用成本更高。但正如2025年1月由DeepSeek公司发布的另一个显著模型R1所展示的,研究人员正在成功地降低这些成本。总体而言,推理扩展可能使人工智能开发者在未来进一步取得进展。 o3的测试结果也强调了更好地理解人工智能开发者日益增加的AI使用如何影响人工智能本身进一步发展的速度的必要性。 o3展示的趋势可能对AI风险产生深远影响。科学和编程能力的进展之前已产生了更多关于风险的证据,例如网络攻击和生物攻击。o3的结果也与潜在的劳动市场影响、失控风险以及能源使用等问题相关。但o3的能力也可能用于帮助防止故障和恶意使用。总体而言,本报告中的风险评估应当理解为,AI自报告撰写以来已获得了新的能力。然而,目前尚无证据表明o3在现实世界中的影响,也没有信息确认或排除重大新型和/或即时的风险。 o3结果所暗示的能力提升以及我们对其可能对AI风险的影响的有限理解,突显了本报告所识别的政策制定者面临的一个关键挑战:他们通常需要在没有大量科学证据的情况下,权衡即将到来的AI进展的潜在好处和风险。尽管如此,生成关于o3所暗示的趋势对安全和安保影响的证据,将是未来几周和几个月AI研究中的紧迫优先事项。 报告的主要发现
● 通用人工智能(本报告关注的人工智能类型)的能力在近年来迅速提高,最近几个月进一步提升。几年前,最好的大规模语言模型(LLM)很少能生成连贯的段落。而今天,通用人工智能可以编写计算机程序、生成定制的逼真图像,并进行扩展的开放式对话。自《临时报告》(2024年5月发布)以来,新模型在科学推理和编程测试中的表现明显更好。 ● 许多公司现在正在投资开发通用人工智能代理,作为进一步发展的潜在方向。人工智能代理是能够自主行动、规划和委派任务以实现目标的通用人工智能系统,几乎不需要人工监督。复杂的人工智能代理例如能够利用计算机完成比当前系统更长时间的项目,从而释放出更多的好处和风险。 ●** 未来几个月和几年内,能力的进展可能会有缓慢也可能会极为迅速**。进展将取决于公司能否迅速部署更多的数据和计算能力来训练新模型,以及这种“推理扩展”是否能克服当前的局限。最近的研究表明,快速扩展模型在物理上可能在未来几年内仍然是可行的。但重大的能力进展可能还需要其他因素,例如新的研究突破(这些是难以预测的)或公司近期采用的新型扩展方法的成功。 ● 一些通用人工智能带来的危害已经得到充分确认。这些危害包括诈骗、未经同意的亲密影像(NCII)和儿童性虐待材料(CSAM)、针对某些群体或意见的模型偏见、可靠性问题和隐私侵犯。研究人员已经开发了针对这些问题的缓解技术,但至今没有任何技术组合能完全解决这些问题。自《临时报告》发布以来,新的关于通用人工智能系统的歧视证据揭示了更多微妙的偏见形式。 ● 随着通用人工智能能力的提高,更多额外风险的证据也在逐步浮现。这些风险包括大规模的劳动市场影响、AI驱动的黑客攻击或生物攻击,以及社会失控等风险。专家们对这些风险的现有证据有不同的解读:有些人认为这些风险还需要几十年才会出现,而另一些人认为通用人工智能可能在未来几年内导致社会规模的危害。最近通用人工智能能力的进展,尤其是在科学推理和编程测试中的表现,产生了新的证据,表明可能的风险,例如AI驱动的黑客攻击和生物攻击,这使得一家大型AI公司将其最佳模型的生物风险评估从“低”提高到了“中”。 ● 风险管理技术仍处于初步阶段,但有进展的可能性。开发者和监管机构可以采用多种技术方法来评估和减少通用人工智能的风险,但这些方法都有局限性。例如,当前解释通用人工智能模型输出的可解释性技术仍然存在严重限制。然而,研究人员在解决这些局限性方面取得了一些进展。此外,研究人员和政策制定者正在日益尝试标准化风险管理方法,并进行国际协调。 ● 通用人工智能进展的速度和不可预测性为政策制定者带来了“证据困境”。由于进展有时迅速且出乎意料,政策制定者通常需要在没有大量科学证据的情况下,权衡即将到来的AI进展的潜在好处和风险。在此过程中,他们面临两难选择。一方面,基于有限证据采取的预防性风险缓解措施可能最终证明是无效或不必要的;另一方面,等待更强有力的证据可能会使社会没有准备好,甚至使缓解变得不可能——例如,如果AI能力发生突飞猛进的进展,且伴随而来的风险随之增加。公司和政府正在开发早期预警系统和风险管理框架,可能有助于减少这一困境。其中一些系统会在出现新的风险证据时触发特定的缓解措施,而另一些则要求开发者在发布新模型之前提供安全性证据。 ● 研究人员普遍认为,以下问题的进展将是有益的:在未来几年,通用人工智能能力将如何迅速发展,研究人员如何可靠地衡量这一进展?触发风险缓解的合理风险阈值是什么?政策制定者如何最好地获取与公共安全相关的通用人工智能信息?研究人员、技术公司和政府如何可靠地评估通用人工智能开发和部署的风险?通用人工智能模型如何在内部运作?如何设计通用人工智能使其行为可靠? ● 人工智能并非天降:人类的选择决定了其未来。通用人工智能技术的未来尚不确定,即使在近期,许多发展轨迹似乎都是可能的,包括非常积极和非常消极的结果。这种不确定性可能激发宿命论,使人工智能看起来像是某种外部发生的事件。但最终,社会和政府在如何应对这种不确定性方面做出的决策,将决定我们将走向何方。本报告旨在促进关于这些决策的建设性和基于证据的讨论。 执行摘要
报告目的
本报告综合了通用人工智能(可以执行多种任务的人工智能)在科学上的现有理解,重点关注理解和管理其风险。 本报告总结了关于通用人工智能安全性的科学证据。其目的是帮助建立关于先进人工智能风险及其缓解方法的国际共同理解。为实现这一目标,本报告聚焦于通用人工智能——或能够执行多种任务的人工智能,因为这种类型的人工智能近年来发展特别迅速,并且已被技术公司广泛应用于各种消费者和商业目的。本报告综合了通用人工智能的科学理解,重点是理解和管理其风险。 在快速发展的背景下,关于通用人工智能的研究正处于科学发现的阶段,且在许多方面仍未形成定论。本报告提供了当前通用人工智能及其风险的科学理解概况。包括确定科学共识的领域,以及当前科学理解中存在不同观点或空白的领域。 世界各地的人们只有在适当管理通用人工智能的风险时,才能安全地充分享受其潜在的好处。本报告重点识别这些风险,并评估评估和缓解风险的技术方法,包括如何利用通用人工智能本身来缓解风险。本报告并不旨在全面评估通用人工智能可能带来的所有社会影响。最值得注意的是,当前和潜在的未来通用人工智能的好处——尽管它们巨大——超出了本报告的范围。全面的政策制定需要考虑通用人工智能的潜在好处和本报告所涵盖的风险,还需要考虑其他类型的人工智能与当前通用人工智能相比具有不同的风险/效益特征。 本报告的三个主要部分总结了三个核心问题的科学证据: 1. 通用人工智能能做什么? 1. 通用人工智能的风险是什么? 1. 有哪些缓解这些风险的技术方法?