生成式人工智能(AI)正在以前所未有的规模与人类互动,为产生巨大的积极影响提供了新的途径,但同时也引发了人们对个人和社会潜在危害的广泛关注。如今,人类-人工智能安全的主要模式侧重于微调生成模型的输出,使其更好地符合人类提供的示例或反馈。然而,在现实中,人工智能模型的输出结果无法在孤立的环境中确定:它们与人类用户的反应和行为长期紧密纠缠在一起。在这份立场文件中,我们认为,只有通过推理人工智能的输出和人类行为形成的反馈回路会如何推动交互走向不同的结果,才能为这些人工智能技术提供有意义的安全保证。为此,我们设想了一个高价值的机会之窗,将快速增长的生成式人工智能能力与控制理论中的动态安全框架联系起来,为未来几十年以人为本的人工智能安全奠定新的基础。

图 1. 在本立场文件中,我们认为存在一个高价值的机会窗口,可将生成式人工智能不断增长的能力与控制理论中的动态安全框架相结合,从而实现新一代以人为本的人工智能安全分析和大规模系统性风险缓解。

价值与需求:定义安全关键型人机交互

在继续讨论之前,我们必须回答这样一个问题:"什么定义了安全关键型人机交互?除了人工智能安全目前对价值一致性的关注之外,我们认为,高风险的人工智能系统还必须了解人类的需求,违反这些需求可能会对人类造成不可接受的、往往是无法弥补的损害。在人工智能决策问题的数学表述中,人的价值对应于优化目标(如随时间累积的奖励或偏好),而人的需求则对应于必须始终满足的硬约束。

因此,我们将安全定义为始终满足人类的关键需求。在本文中,我们将人与人工智能的交互作为一个闭环动态系统进行研究,该系统由人的行为和人工智能的输出驱动,它们共同影响着人工智能的学习和人的未来行为。我们将安全关键型人机交互系统定义为:在交互演化过程中,人类的关键需求有可能受到侵犯,因此人工智能所做的决策必须积极确保此类侵犯行为不会发生。即使是一个看似无害的人工智能聊天机器人,也可能给人类带来灾难性的后果,例如因投资建议不当而造成不可挽回的经济损失(Hicks,2023 年)或身体伤害(Xiang,2023 年)。我们认为,由于任何实用的人工智能系统都无法确定人类当前的内部状态,因此也无法确定他们未来的行为,因此应该要求人工智能系统确保任何可以想象的人类行为(包括适当悲观的情况)都能保持安全。第 4 节和第 5 节的人类-人工智能系统理论路线图将更正式地阐述这些关键因素。

成为VIP会员查看完整内容
31

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《生成式人工智能模型:机遇与风险》
专知会员服务
55+阅读 · 4月22日
《综述:测试与评估中应用的人工智能工具》
专知会员服务
50+阅读 · 1月22日
《基于开源软件强化学习的计算机生成兵力》
专知会员服务
58+阅读 · 1月21日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
74+阅读 · 2023年8月7日
《人工智能网络攻击带来的安全威胁》30页报告
专知会员服务
66+阅读 · 2023年5月4日
《可信人工智能: 将人工智能融入美国陆军知识体系》
专知会员服务
124+阅读 · 2023年4月12日
《人工智能在军事武器系统中的崛起》
专知会员服务
124+阅读 · 2023年3月21日
「基于通信的多智能体强化学习」 进展综述
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
Arxiv
142+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
348+阅读 · 2023年3月31日
Arxiv
123+阅读 · 2023年3月24日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《生成式人工智能模型:机遇与风险》
专知会员服务
55+阅读 · 4月22日
《综述:测试与评估中应用的人工智能工具》
专知会员服务
50+阅读 · 1月22日
《基于开源软件强化学习的计算机生成兵力》
专知会员服务
58+阅读 · 1月21日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
74+阅读 · 2023年8月7日
《人工智能网络攻击带来的安全威胁》30页报告
专知会员服务
66+阅读 · 2023年5月4日
《可信人工智能: 将人工智能融入美国陆军知识体系》
专知会员服务
124+阅读 · 2023年4月12日
《人工智能在军事武器系统中的崛起》
专知会员服务
124+阅读 · 2023年3月21日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员