人工智能安全为何需要不确定性、不完全偏好与非阿基米德效用 (Why AI Safety Requires Uncertainty, Incomplete Preferences, and Non-Archimedean Utilities) - 专知论文

会员服务 ·

0

不确定 · 效用 · 智能代理 · 不确定性 · 人工智能 ·

Why AI Safety Requires Uncertainty, Incomplete Preferences, and Non-Archimedean Utilities

翻译：人工智能安全为何需要不确定性、不完全偏好与非阿基米德效用

Alessio Benavoli,Alessandro Facchini,Marco Zaffalon

How can we ensure that AI systems are aligned with human values and remain safe? We can study this problem through the frameworks of the AI assistance and the AI shutdown games. The AI assistance problem concerns designing an AI agent that helps a human to maximise their utility function(s). However, only the human knows these function(s); the AI assistant must learn them. The shutdown problem instead concerns designing AI agents that: shut down when a shutdown button is pressed; neither try to prevent nor cause the pressing of the shutdown button; and otherwise accomplish their task competently. In this paper, we show that addressing these challenges requires AI agents that can reason under uncertainty and handle both incomplete and non-Archimedean preferences.

翻译：如何确保人工智能系统与人类价值观保持一致并保持安全？我们可以通过人工智能辅助与人工智能关机博弈的框架来研究这一问题。人工智能辅助问题涉及设计能够帮助人类最大化其效用函数的人工智能代理。然而，只有人类知晓这些函数；人工智能助手必须学习它们。而关机问题则涉及设计满足以下条件的人工智能代理：当关机按钮被按下时能够关机；既不试图阻止也不引发关机按钮的按下；在其他情况下能够胜任地完成任务。本文中，我们证明解决这些挑战需要人工智能代理具备在不确定性下进行推理的能力，并能处理不完全偏好与非阿基米德偏好。

0

相关内容

不确定

【ICML2025】通用智能体需要世界模型

【ICML2025】通用智能体需要世界模型

专知会员服务

22+阅读 · 6月4日

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

专知会员服务

31+阅读 · 2023年3月1日

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

专知会员服务

16+阅读 · 2022年12月16日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

专知会员服务

37+阅读 · 2022年3月13日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

无人机集群、蜂群与蜂群算法

无人机集群、蜂群与蜂群算法

无人机

94+阅读 · 2018年9月25日

LibRec 每周算法：LDA主题模型

LibRec 每周算法：LDA主题模型

LibRec智能推荐

29+阅读 · 2017年12月4日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

Why We Need a New Framework for Emotional Intelligence in AI

Arxiv

0+阅读 · 12月29日

Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits

Arxiv

0+阅读 · 12月23日

Detecting Non-Optimal Decisions of Embodied Agents via Diversity-Guided Metamorphic Testing

Arxiv

0+阅读 · 12月23日

Dual Computational Horizons: Incompleteness and Unpredictability in Intelligent Systems

Arxiv

0+阅读 · 12月21日

Let the Barbarians In: How AI Can Accelerate Systems Performance Research

Arxiv

0+阅读 · 12月19日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2025】通用智能体需要世界模型

【ICML2025】通用智能体需要世界模型

专知会员服务

22+阅读 · 6月4日

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

专知会员服务

31+阅读 · 2023年3月1日

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

专知会员服务

16+阅读 · 2022年12月16日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

专知会员服务

37+阅读 · 2022年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约联合仿真与集成、验证与鉴定服务标准》2025最新40页

《面向协同任务的无人地面车辆与无人机（UGV-UAV）集成研究综述》2025最新综述论文

《理解大语言模型在军事战术任务规划中的局限性》

《国防与安全会议论文集》最新80页

相关资讯

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

无人机集群、蜂群与蜂群算法

无人机集群、蜂群与蜂群算法

无人机

94+阅读 · 2018年9月25日

LibRec 每周算法：LDA主题模型

LibRec 每周算法：LDA主题模型

LibRec智能推荐

29+阅读 · 2017年12月4日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

相关论文

Why We Need a New Framework for Emotional Intelligence in AI

Arxiv

0+阅读 · 12月29日

Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits

Arxiv

0+阅读 · 12月23日

Detecting Non-Optimal Decisions of Embodied Agents via Diversity-Guided Metamorphic Testing

Arxiv

0+阅读 · 12月23日

Dual Computational Horizons: Incompleteness and Unpredictability in Intelligent Systems

Arxiv

0+阅读 · 12月21日

Let the Barbarians In: How AI Can Accelerate Systems Performance Research

Arxiv

0+阅读 · 12月19日

相关基金

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员