《应对人工智能系统测试和评估新挑战的最佳实践》 - 专知VIP

会员服务 ·

43

人工智能 · 测试与评估 · AI与军事 ·

2023 年 8 月 7 日

《应对人工智能系统测试和评估新挑战的最佳实践》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人工智能（AI）和统计机器学习（ML）与复杂系统的集成，给传统的测试与评估（T&E）实践带来了各种挑战。随着更多不同级别的决策由人工智能系统（AIES）处理，我们需要测试与评估流程为确保系统的有效性、适用性和生存性奠定基础。这涉及到评估 ML 模型和人工智能算法组件的方法，包括展示它们如何产生可重复和可解释的决策的能力，以及对任何故障模式和故障缓解技术的了解。此外，还需要人工智能保证，以证明人工智能算法按预期运行，不存在因设计缺陷或恶意插入数据或算法代码而产生的漏洞。T&E 需要新的流程来鉴定 ML 模型的训练数据是否充足、算法和模型性能、系统性能以及运行能力。弗里曼（Freeman，2020 年）概述了当前复杂软件支持系统的测试与评价方法所面临的挑战、嵌入式人工智能所加剧的关键挑战，以及针对 AIES 的测试与评价需要如何改变的 10 个主题[1]。

为了充分测试 AIES，测试与评估界需要应对以下挑战：

当状态空间的大小导致测试所有情况不可行，或开放世界问题导致无法枚举所有情况时，确定测试要求；
解决这些突发系统可以分解这一可能无效的假设；以及
处理动态变化的系统，这些系统在部署过程中可能永远不会处于 "最终 "状态[1]。

图 1 总结了加强测试与评估的 10 个不同主题，以应对充分测试和评估 AIES 所面临的挑战。在过去的一年中，弗吉尼亚理工大学致力于测试和评估各种 AIES。本最佳实践指南对图 1 中的主题进行了进一步的完善和补充。本文所包含的最佳实践将这些主题转化为可执行的测试与评估实践。在编写本指南的过程中，我们充分利用了我们在人工智能系统开发和与更广泛的人工智能社区合作方面的 T&E 工作经验。这里所包含的最佳实践反映了我们为使人工智能系统的测试与评估具有可操作性所做的初步尝试。这些实践需要在各种人工智能系统中进行测试，以确保它们是真正的最佳实践。贯穿许多最佳实践的一个亮点是数据的重要作用。数据不再仅仅是 T&E 的产物。现在，它已成为人工智能系统开发本身的输入。这一显著变化推动了对人工智能系统的技术与评估提出新的要求和实践。此外，这份清单还远远不够完整，应被视为一份活生生的实践文档。随着越来越多的人工智能系统可供测试，新的实践将不断发展，本清单也需要不断更新。不过，本文件中的每种做法都已证明在美国防部 AIES 测试中非常有用。

成为VIP会员查看完整内容

85

相关内容

人工智能

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支。

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

专知会员服务

122+阅读 · 2023年7月10日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

《可信人工智能：将人工智能融入美国陆军知识体系》

《可信人工智能：将人工智能融入美国陆军知识体系》

专知会员服务

149+阅读 · 2023年4月12日

《人工智能在军事武器系统中的崛起》

《人工智能在军事武器系统中的崛起》

专知会员服务

152+阅读 · 2023年3月21日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

63+阅读 · 2022年10月28日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知会员服务

141+阅读 · 2021年3月17日

最新《可解释机器学习:原理与实践》综述论文，33页pdf

最新《可解释机器学习:原理与实践》综述论文，33页pdf

专知会员服务

160+阅读 · 2020年10月10日

【干货书】可解释人工智能(xAI)方法和深度元学习模型

【干货书】可解释人工智能(xAI)方法和深度元学习模型

专知会员服务

61+阅读 · 2020年9月13日

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

专知

3+阅读 · 2022年11月11日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知

5+阅读 · 2022年10月30日

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

专知

10+阅读 · 2022年10月20日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【干货书】图数据科学：图算法，分析方法，平台，数据库，和用例，415页pdf

【干货书】图数据科学：图算法，分析方法，平台，数据库，和用例，415页pdf

专知

3+阅读 · 2022年10月7日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知

0+阅读 · 2022年10月4日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知

1+阅读 · 2022年8月26日

【硬核书】人工智能用于计算机架构原理、实践和前景，144页pdf

【硬核书】人工智能用于计算机架构原理、实践和前景，144页pdf

专知

7+阅读 · 2022年8月23日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知

2+阅读 · 2022年8月19日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向多自治域环境的信息中心网络缓存策略和机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

VIP会员

相关主题

测试与评估

相关VIP内容

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

《评估人工智能和辅助自动化指挥与控制决策辅助工具以提高任务效率的分析框架》

专知会员服务

122+阅读 · 2023年7月10日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

《可信人工智能：将人工智能融入美国陆军知识体系》

《可信人工智能：将人工智能融入美国陆军知识体系》

专知会员服务

149+阅读 · 2023年4月12日

《人工智能在军事武器系统中的崛起》

《人工智能在军事武器系统中的崛起》

专知会员服务

152+阅读 · 2023年3月21日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

63+阅读 · 2022年10月28日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知会员服务

141+阅读 · 2021年3月17日

最新《可解释机器学习:原理与实践》综述论文，33页pdf

最新《可解释机器学习:原理与实践》综述论文，33页pdf

专知会员服务

160+阅读 · 2020年10月10日

【干货书】可解释人工智能(xAI)方法和深度元学习模型

【干货书】可解释人工智能(xAI)方法和深度元学习模型

专知会员服务

61+阅读 · 2020年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

新书册《几何深度学习的数学基础》

中程单向攻击无人机的战略意义：俄乌战争启示

在无标注条件下适配视觉—语言模型：全面综述

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

相关资讯

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

《打开黑盒：深度学习理论》最新报告，普林斯顿Sanjeev Arora教授，附ppt

专知

3+阅读 · 2022年11月11日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知

5+阅读 · 2022年10月30日

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

专知

10+阅读 · 2022年10月20日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【干货书】图数据科学：图算法，分析方法，平台，数据库，和用例，415页pdf

【干货书】图数据科学：图算法，分析方法，平台，数据库，和用例，415页pdf

专知

3+阅读 · 2022年10月7日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知

0+阅读 · 2022年10月4日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知

1+阅读 · 2022年8月26日

【硬核书】人工智能用于计算机架构原理、实践和前景，144页pdf

【硬核书】人工智能用于计算机架构原理、实践和前景，144页pdf

专知

7+阅读 · 2022年8月23日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知

2+阅读 · 2022年8月19日

相关基金

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向多自治域环境的信息中心网络缓存策略和机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员