摘 要
人工智能体在我们的世界中的流行提高了确保它们能够处理环境的显着属性的需求,以便计划或学习如何解决特定任务。
第一个重要方面是现实世界的问题不限于一个智能体,并且通常涉及在同一环境中行动的多个智能体。此类设置已被证明难以解决,其中一些示例包括交通系统、电网或仓库管理。此外,尽管许多问题域固有地涉及多个目标,但这些多智能体系统实现中的大多数旨在优化智能体相对于单个目标的行为。通过对决策问题采取多目标视角,可以管理复杂的权衡;例如,供应链管理涉及一个复杂的协调过程,用于优化供应链所有组件之间的信息和物质流。
在这项工作中,我们关注这些突出的方面,并讨论当涉及多个智能体时,如何将人工智能体的决策和学习过程形式化,并且在该过程中需要考虑多个目标。为了分析这些问题,我们采用了基于效用的观点,主张在相互竞争的目标之间做出妥协,应该基于这些妥协对用户的效用,换句话说,它应该取决于结果的可取性。
我们对多目标多智能体决策 (MOMADM) 领域的分析表明,迄今为止该领域已经相当分散。因此,对于如何识别和处理这些设置还没有统一的看法。作为第一个贡献,我们开发了一种新的分类法来对 MOMADM 设置进行分类。这使我们能够提供该领域的结构化视图,清楚地描述当前多目标多智能体决策方法的最新技术,并确定未来研究的有希望的方向。
在多目标多智能体系统的学习过程中,智能体接收一个值列表,每个分量代表不同目标的性能。在自利智能体人的情况下(即,每个人都可能对目标有不同的偏好),在相互冲突的利益之间寻找权衡变得非常简单。作为第二个贡献,我们继续分析和研究不同多目标优化标准下的博弈论均衡,并提供有关在这些场景中获得此类解决方案的存在和条件的理论结果。我们还表明,在某些多目标多智能体设置中,纳什均衡可能不存在。
当决策过程中的每个参与者都有不同的效用时,智能体了解其他人的行为就变得至关重要。作为最后的贡献,我们首次研究了对手建模对多目标多智能体交互的影响。我们提供了新颖的学习算法,以及将对手行为建模和学习与对手学习意识相结合的扩展(即,在预测一个人对对手学习步骤的影响的同时进行学习)。实证结果表明,对手的学习意识和建模可以极大地改变学习动态。当存在纳什均衡时,对手建模可以为实现它的智能体带来显着的好处。当没有纳什均衡时,对手学习意识和建模允许智能体仍然收敛到有意义的解决方案。
提 纲
1 引言
1.1 多智能体与多目标 1.2 激励示例 1.3 研究目标和贡献 1.3.1 贡献 1.4 论文结构
2 多目标多智能体系统
2.1 强化学习 2.1.1 基于价值的方法 2.1.2 策略梯度和演员评论家 2.2 多智能体决策理论 2.2.1 标准形式博弈与均衡 2.3 单智能体多目标决策 2.3.1 工具函数 2.3.2 多目标优化标准 2.3.3 应用案例场景 2.4 多智能体多目标决策 2.4.1 多目标随机博弈 2.4.2 特殊案例模型 2.4.3 多目标标准博弈 2.4.4 MONFG优化标准 2.5 总结
3 构建多目标多智能体决策域
3.1 执行阶段 3.1.1 团队奖励 3.1.2 个体奖励 3.2 解决方案概念 3.2.1 策略 3.2.2 覆盖集合 3.2.3 均衡 3.2.4 ε近似纳什均衡 3.2.5 联盟形式与稳定概念 3.2.6 社会福利与机制设计 3.2.7 其他解决方案的概念 3.3 总结
4 多目标多智能体场景均衡
4.1 MONFG计算均衡 4.1.1 定义 4.1.2 理论分析 4.1.3 用于SER分析的附加博弈 4.2 实验 4.2.1 Game 1 - The (Im)balancing Act Game 4.2.2 Game 2 - The (Im)balancing Act Game without action M 4.2.3 Game 3 - A 3-action MONFG with pure NE 4.3 总结
5 多目标多智能体场景中的对手建模
5.1 背景 5.1.1 对手建模 5.2 MONFG中的对手建模 5.2.1 对手学习意识和建模使用高斯过程 5.2.2 MONFG评价器 5.2.3 MONFG策略梯度方法 5.3 实验设置与结果 5.3.1 完整信息设置 - MO-LOLA vs. MO-LOLA 5.3.2 无信息设置 5.4 总结
6 结论
6.1 讨论 6.2 未来研究方向
6.2.1 优化标准和解决方案概念 6.2.2 ESR计划、强化学习与SER博弈论 6.2.3 对手建模和建模对手效用 6.2.4 互动研究方法 6.2.5 深度多目标多智能体决策 6.2.6 更广泛的适用性