How can we ensure that AI systems are aligned with human values and remain safe? We can study this problem through the frameworks of the AI assistance and the AI shutdown games. The AI assistance problem concerns designing an AI agent that helps a human to maximise their utility function(s). However, only the human knows these function(s); the AI assistant must learn them. The shutdown problem instead concerns designing AI agents that: shut down when a shutdown button is pressed; neither try to prevent nor cause the pressing of the shutdown button; and otherwise accomplish their task competently. In this paper, we show that addressing these challenges requires AI agents that can reason under uncertainty and handle both incomplete and non-Archimedean preferences.


翻译:如何确保人工智能系统与人类价值观保持一致并保持安全?我们可以通过人工智能辅助与人工智能关机博弈的框架来研究这一问题。人工智能辅助问题涉及设计能够帮助人类最大化其效用函数的人工智能代理。然而,只有人类知晓这些函数;人工智能助手必须学习它们。而关机问题则涉及设计满足以下条件的人工智能代理:当关机按钮被按下时能够关机;既不试图阻止也不引发关机按钮的按下;在其他情况下能够胜任地完成任务。本文中,我们证明解决这些挑战需要人工智能代理具备在不确定性下进行推理的能力,并能处理不完全偏好与非阿基米德偏好。

0
下载
关闭预览

相关内容

【ICML2025】通用智能体需要世界模型
专知会员服务
22+阅读 · 6月4日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
无人机集群、蜂群与蜂群算法
无人机
94+阅读 · 2018年9月25日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
无人机集群、蜂群与蜂群算法
无人机
94+阅读 · 2018年9月25日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员