Making decisions in complex environments is a key challenge in artificial intelligence (AI). Situations involving multiple decision makers are particularly complex, leading to computational intractability of principled solution methods. A body of work in AI has tried to mitigate this problem by trying to distill interaction to its essence: how does the policy of one agent influence another agent? If we can find more compact representations of such influence, this can help us deal with the complexity, for instance by searching the space of influences rather than the space of policies. However, so far these notions of influence have been restricted in their applicability to special cases of interaction. In this paper we formalize influence-based abstraction (IBA), which facilitates the elimination of latent state factors without any loss in value, for a very general class of problems described as factored partially observable stochastic games (fPOSGs). On the one hand, this generalizes existing descriptions of influence, and thus can serve as the foundation for improvements in scalability and other insights in decision making in complex multiagent settings. On the other hand, since the presence of other agents can be seen as a generalization of single agent settings, our formulation of IBA also provides a sufficient statistic for decision making under abstraction for a single agent. We also give a detailed discussion of the relations to such previous works, identifying new insights and interpretations of these approaches. In these ways, this paper deepens our understanding of abstraction in a wide range of sequential decision making settings, providing the basis for new approaches and algorithms for a large class of problems.


翻译:复杂环境中的决策是人工智能(AI)中的一个关键挑战。 涉及多个决策者的情况特别复杂,导致原则性解决办法的可计算性。AI的一大批工作试图缓解这一问题,试图通过蒸馏其本质的互动:一个代理人的政策如何影响另一个代理人?如果我们能找到这种影响力的更为紧凑的表述方式,这可以帮助我们处理复杂性,例如通过寻找影响空间而不是政策空间。然而,到目前为止,这些影响力概念在适用于特殊的互动情况方面受到限制。在本文件中,我们正式确定了基于影响力的抽象概念(IBA),它有助于消除潜在的国家因素,而没有任何价值损失。对于被描述为具有部分可观察性的游戏(fPOSGs)的非常一般性的问题,AI的一组工作试图缓解这一问题。 一方面,这可以概括现有的影响力描述,从而可以作为在复杂的多代理人环境中改进决策的伸缩性和其他洞察力的基础。另一方面,由于其他代理人的存在可以被视为一种基于单一代理人背景的概括性抽象抽象抽象的抽象的抽象的抽象的抽象的表达方式,我们还在这种抽象的深度的层次上为我们以前的决策提供了一种完整的解释的抽象的深度的理论基础。

0
下载
关闭预览

相关内容

【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
111+阅读 · 2020年11月12日
专知会员服务
53+阅读 · 2020年9月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年4月19日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
111+阅读 · 2020年11月12日
专知会员服务
53+阅读 · 2020年9月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员