Some researchers speculate that intelligent reinforcement learning (RL) agents would be incentivized to seek resources and power in pursuit of their objectives. Other researchers are skeptical, because RL agents need not have human-like power-seeking instincts. To clarify this debate, we develop the first formal theory of the statistical tendencies of optimal policies. In the context of Markov decision processes, we prove that certain environmental symmetries are sufficient for optimal policies to tend to seek power over the environment. These symmetries exist in many environments in which the agent can be shut down or destroyed. We prove that in these environments, most reward functions make it optimal to seek power by keeping a range of options available and, when maximizing average reward, by navigating towards larger sets of potential terminal states.


翻译:一些研究人员推测,智能强化学习(RL)代理商将受到激励,以寻求资源和权力来实现其目标。其他研究人员则持怀疑态度,因为RL代理商不需要像人类那样的追求权力的本能。为了澄清这场辩论,我们开发了最佳政策统计趋势的第一个正式理论。在Markov决策过程中,我们证明某些环境不对称足以使最佳政策倾向于寻求对环境的权力。这些对称存在于可以关闭或摧毁该代理商的许多环境中。我们证明,在这些环境中,大多数奖励功能都通过保持一系列的选择,并在尽可能扩大平均回报时,通过探索更多潜在的终点状态,使寻求权力成为最佳。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Arxiv
11+阅读 · 2021年12月8日
Arxiv
66+阅读 · 2021年6月18日
Arxiv
7+阅读 · 2018年12月26日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
相关论文
Top
微信扫码咨询专知VIP会员