Multi-agent inverse reinforcement learning (MIRL) can be used to learn reward functions from agents in social environments. To model realistic social dynamics, MIRL methods must account for suboptimal human reasoning and behavior. Traditional formalisms of game theory provide computationally tractable behavioral models, but assume agents have unrealistic cognitive capabilities. This research identifies and compares mechanisms in MIRL methods which a) handle noise, biases and heuristics in agent decision making and b) model realistic equilibrium solution concepts. MIRL research is systematically reviewed to identify solutions for these challenges. The methods and results of these studies are analyzed and compared based on factors including performance accuracy, efficiency, and descriptive quality. We found that the primary methods for handling noise, biases and heuristics in MIRL were extensions of Maximum Entropy (MaxEnt) IRL to multi-agent settings. We also found that many successful solution concepts are generalizations of the traditional Nash Equilibrium (NE). These solutions include the correlated equilibrium, logistic stochastic best response equilibrium and entropy regularized mean field NE. Methods which use recursive reasoning or updating also perform well, including the feedback NE and archive multi-agent adversarial IRL. Success in modeling specific biases and heuristics in single-agent IRL and promising results using a Theory of Mind approach in MIRL imply that modeling specific biases and heuristics may be useful. Flexibility and unbiased inference in the identified alternative solution concepts suggest that a solution concept which has both recursive and generalized characteristics may perform well at modeling realistic social interactions.


翻译:多试剂反向强化学习(MIIRL)可用于从社会环境中的代理商那里学习奖励功能。为了模拟现实的社会动态,MIRL方法必须考虑到不完美的人类推理和行为。游戏理论的传统形式主义提供了可计算可移动的行为模式,但假设代理人具有不切实际的认知能力。这项研究确定并比较了MIRL方法中处理代理人决策中的噪音、偏见和超常性的机制,以及(b) 模型现实的平衡解决方案概念。对MIRL研究进行了系统审查,以确定这些挑战的解决方案。这些研究的方法和结果根据业绩准确性、效率和描述质量等因素进行分析和比较。我们发现,MIRL传统的处理噪音、偏见和超常性格理论的主要方法提供了可计算的行为模式,但是,MIRL(ax Ent)与多试剂环境的扩展能力是相容性。我们还发现,许多成功的解决方案概念是传统Nash Equirialial(NE)的概括性概念。这些解决方案包括相关的平衡、物流和最佳反应最佳反应平衡,以及精选的外地正值的常规化的模型。我们发现,在反复性、再演化、再演化、再演化、再分析、再演化、再演化、再演化的、再演化的、再演化的、再演化、再演化的、再演化、再演化的、再演化、再演化、再演化、再演化的、再演。我们的、再演进的、再演进、再演进的、再演进、再演进、再演进的、再演进、再演进的、再演进的、再演进的、再演进的、再演进性、再演进的、再演进的、再演进的、再演进的、再演进的、再演进性、再演进性、再演进的、再演进、再演进、再演进、再演进的、再演进、再演进、再演进、再演进、再演进、再演进、再演进、再演进、再演进的、再演进的、再演进的、再演进的、再演进的、再演进、再演进的、再演进的

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年9月7日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
14+阅读 · 2019年5月29日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
4+阅读 · 2020年1月17日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关VIP内容
专知会员服务
52+阅读 · 2020年9月7日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
14+阅读 · 2019年5月29日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员