为了应对人们对生成式人工智能(GenAI)模型的安全性、保障性和可信性日益增长的担忧,从业者和监管者都将人工智能 "红队"(red-teaming)作为其识别和降低这些风险的战略的关键组成部分。然而,尽管人工智能红队在政策讨论和企业信息传递中扮演着核心角色,但对于它的确切含义、它在监管中能发挥什么作用,以及它与网络安全领域最初设想的传统红队实践之间的关系,仍然存在重大疑问。在这项工作中,我们确定了人工智能行业最近的 "红队"活动案例,并对相关研究文献进行了广泛调查,以确定人工智能 "红队"实践的范围、结构和标准。我们的分析表明,先前的人工智能 "红队"方法和实践在几个方面存在分歧,包括活动的目的(通常比较模糊)、被评估的人工智能产品、开展活动的环境(如参与者、资源和方法),以及由此产生的决策(如报告、披露和缓解)。根据我们的研究结果,我们认为,虽然 "红队 "可能是描述 GenAI 危害缓解措施的一个有价值的大帐篷想法,而且行业可能会闭门有效地应用 "红队 "和其他策略来保护人工智能,但将 "红队"(基于公开定义)作为解决所有可能风险的“万能药”的姿态近乎不可能。为了为生成式人工智能提供一个更强大的评估工具箱,我们将我们的建议综合成一个问题库,旨在指导和支持未来的人工智能 "红队"实践。

表 1:提出的用于指导未来人工智能红队活动的一系列问题。

成为VIP会员查看完整内容
49

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《数字孪生:安全威胁综合性综述》73页长综述
专知会员服务
32+阅读 · 5月23日
《大模型对齐方法》最新综述
专知会员服务
79+阅读 · 3月8日
《武器系统中的人工智能》2023最新100页报告
专知会员服务
133+阅读 · 2023年12月13日
《自动化的网络防御:综述》2023最新32页长综述
专知会员服务
30+阅读 · 2023年6月19日
《攻击和欺骗军事人工智能系统》2023最新48页报告
专知会员服务
132+阅读 · 2023年6月16日
《攻击性人工智能》最新62页报告
专知会员服务
113+阅读 · 2023年3月29日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
397+阅读 · 2023年3月31日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员