《评估生成式人工智能的红队方法》最新37页长综述 - 专知VIP

会员服务 ·

32

AI与军事 · 生成式人工智能 ·

2024 年 5 月 27 日

《评估生成式人工智能的红队方法》最新37页长综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

为了应对人们对生成式人工智能（GenAI）模型的安全性、保障性和可信性日益增长的担忧，从业者和监管者都将人工智能 "红队"（red-teaming）作为其识别和降低这些风险的战略的关键组成部分。然而，尽管人工智能红队在政策讨论和企业信息传递中扮演着核心角色，但对于它的确切含义、它在监管中能发挥什么作用，以及它与网络安全领域最初设想的传统红队实践之间的关系，仍然存在重大疑问。在这项工作中，我们确定了人工智能行业最近的 "红队"活动案例，并对相关研究文献进行了广泛调查，以确定人工智能 "红队"实践的范围、结构和标准。我们的分析表明，先前的人工智能 "红队"方法和实践在几个方面存在分歧，包括活动的目的（通常比较模糊）、被评估的人工智能产品、开展活动的环境（如参与者、资源和方法），以及由此产生的决策（如报告、披露和缓解）。根据我们的研究结果，我们认为，虽然 "红队 "可能是描述 GenAI 危害缓解措施的一个有价值的大帐篷想法，而且行业可能会闭门有效地应用 "红队 "和其他策略来保护人工智能，但将 "红队"（基于公开定义）作为解决所有可能风险的“万能药”的姿态近乎不可能。为了为生成式人工智能提供一个更强大的评估工具箱，我们将我们的建议综合成一个问题库，旨在指导和支持未来的人工智能 "红队"实践。

表 1：提出的用于指导未来人工智能红队活动的一系列问题。

成为VIP会员查看完整内容

56

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《人工智能与影响力作战：最新趋势》2024最新39页报告

《人工智能与影响力作战：最新趋势》2024最新39页报告

专知会员服务

45+阅读 · 2024年6月11日

《数字孪生：安全威胁综合性综述》73页长综述

《数字孪生：安全威胁综合性综述》73页长综述

专知会员服务

34+阅读 · 2024年5月23日

《大模型对齐方法》最新综述

《大模型对齐方法》最新综述

专知会员服务

85+阅读 · 2024年3月8日

《武器系统中的人工智能》2023最新100页报告

《武器系统中的人工智能》2023最新100页报告

专知会员服务

148+阅读 · 2023年12月13日

《自动化的网络防御：综述》2023最新32页长综述

《自动化的网络防御：综述》2023最新32页长综述

专知会员服务

33+阅读 · 2023年6月19日

《攻击和欺骗军事人工智能系统》2023最新48页报告

《攻击和欺骗军事人工智能系统》2023最新48页报告

专知会员服务

149+阅读 · 2023年6月16日

《攻击性人工智能》最新62页报告

《攻击性人工智能》最新62页报告

专知会员服务

124+阅读 · 2023年3月29日

《冒险的渐进主义：美国的国防人工智能》2023最新52页报告

《冒险的渐进主义：美国的国防人工智能》2023最新52页报告

专知会员服务

102+阅读 · 2023年3月15日

《加强美国人工智能创新生态系统：国家人工智能研究资源实施规划》2023最新104页报告，美国国家人工智能研究资源工作组

《加强美国人工智能创新生态系统：国家人工智能研究资源实施规划》2023最新104页报告，美国国家人工智能研究资源工作组

专知会员服务

78+阅读 · 2023年2月27日

AI工具军用评估 | 《评估人工智能在信息环境中的行动价值》2022.12最新221页论文

AI工具军用评估 | 《评估人工智能在信息环境中的行动价值》2022.12最新221页论文

专知会员服务

73+阅读 · 2023年2月16日

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

97+阅读 · 2022年10月17日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

52+阅读 · 2022年9月25日

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

专知

170+阅读 · 2022年9月19日

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

52+阅读 · 2022年9月11日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

85+阅读 · 2022年7月29日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

40+阅读 · 2022年7月27日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

使用深度学习构建先进推荐系统：近期33篇重要研究概述

使用深度学习构建先进推荐系统：近期33篇重要研究概述

机器之心

21+阅读 · 2017年12月23日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于主动异构监督的重叠社区发现及其模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于网络结构演化的Folksonomy模式中社群知识组织与知识涌现研究

国家自然科学基金

1+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

生成式人工智能

相关VIP内容

《人工智能与影响力作战：最新趋势》2024最新39页报告

《人工智能与影响力作战：最新趋势》2024最新39页报告

专知会员服务

45+阅读 · 2024年6月11日

《数字孪生：安全威胁综合性综述》73页长综述

《数字孪生：安全威胁综合性综述》73页长综述

专知会员服务

34+阅读 · 2024年5月23日

《大模型对齐方法》最新综述

《大模型对齐方法》最新综述

专知会员服务

85+阅读 · 2024年3月8日

《武器系统中的人工智能》2023最新100页报告

《武器系统中的人工智能》2023最新100页报告

专知会员服务

148+阅读 · 2023年12月13日

《自动化的网络防御：综述》2023最新32页长综述

《自动化的网络防御：综述》2023最新32页长综述

专知会员服务

33+阅读 · 2023年6月19日

《攻击和欺骗军事人工智能系统》2023最新48页报告

《攻击和欺骗军事人工智能系统》2023最新48页报告

专知会员服务

149+阅读 · 2023年6月16日

《攻击性人工智能》最新62页报告

《攻击性人工智能》最新62页报告

专知会员服务

124+阅读 · 2023年3月29日

《冒险的渐进主义：美国的国防人工智能》2023最新52页报告

《冒险的渐进主义：美国的国防人工智能》2023最新52页报告

专知会员服务

102+阅读 · 2023年3月15日

《加强美国人工智能创新生态系统：国家人工智能研究资源实施规划》2023最新104页报告，美国国家人工智能研究资源工作组

《加强美国人工智能创新生态系统：国家人工智能研究资源实施规划》2023最新104页报告，美国国家人工智能研究资源工作组

专知会员服务

78+阅读 · 2023年2月27日

AI工具军用评估 | 《评估人工智能在信息环境中的行动价值》2022.12最新221页论文

AI工具军用评估 | 《评估人工智能在信息环境中的行动价值》2022.12最新221页论文

专知会员服务

73+阅读 · 2023年2月16日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICCV2025教程】基础模型遇见具身智能体

军事机器学习设计：关于开发自动化任务摘要系统的梯次化设计科学研究 | 2025最新93页

扩散模型中的缓存方法综述：迈向高效的多模态生成

【ICCV2025教程】《迈向视觉语言模型的全面推理》

相关资讯

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

97+阅读 · 2022年10月17日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

52+阅读 · 2022年9月25日

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

专知

170+阅读 · 2022年9月19日

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

52+阅读 · 2022年9月11日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

85+阅读 · 2022年7月29日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

40+阅读 · 2022年7月27日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

使用深度学习构建先进推荐系统：近期33篇重要研究概述

使用深度学习构建先进推荐系统：近期33篇重要研究概述

机器之心

21+阅读 · 2017年12月23日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于主动异构监督的重叠社区发现及其模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于网络结构演化的Folksonomy模式中社群知识组织与知识涌现研究

国家自然科学基金

1+阅读 · 2014年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员