Multi-agent reinforcement learning(MARL) is a prevalent learning paradigm for solving stochastic games. In previous studies, agents in a game are defined to be teammates or enemies beforehand, and the relation of the agents is fixed throughout the game. Those works can hardly work in the games where the competitive and collaborative relationships are not public and dynamically changing, which is decided by the \textit{identities} of the agents. How to learn a successful policy in such a situation where the identities of agents are ambiguous is still a problem. Focusing on this problem, in this work, we develop a novel MARL framework: IDRL, which identifies the identities of the agents dynamically and then chooses the corresponding policy to perform in the task. In the IDRL framework, a relation network is constructed to deduce the identities of the multi-agents through feeling the kindness and hostility unleashed by other agents; a dangerous network is built to estimate the risk of the identification. We also propose an intrinsic reward to help train the relation network and the dangerous network to get a trade-off between the need to maximize external reward and the accuracy of identification. After identifying the cooperation-competition pattern among the agents, the proposed method IDRL applies one of the off-the-shelf MARL methods to learn the policy. Taking the poker game \textit{red-10} as the experiment environment, experiments show that the IDRL can achieve superior performance compared to the other MARL methods. Significantly, the relation network has the par performance to identify the identities of agents with top human players; the dangerous network reasonably avoids the risk of imperfect identification.
翻译:多试剂强化学习(MARL)是解决杂乱游戏的一个普遍学习模式。 在以往的研究中, 游戏中的代理商被定义为团队或敌人, 在整个游戏中, 代理商的关系是固定的。 这些作品很难在竞争和协作关系不公开和动态变化的游戏中发挥作用, 由代理商的友好和敌意决定。 在代理商身份不明的情况下, 如何学习成功的政策仍然是一个问题。 在这项工作中, 我们开发了一个全新的 MARL 框架: IDRL, 它能动态地识别代理商的身份, 然后在整个游戏中选择相应的工作政策。 在 IDR 框架内, 建立关系网络是为了通过感受到其他代理商的友好和敌意来推断多试剂的身份; 建立危险网络来估计识别风险的风险。 我们还提出一个内部奖赏, 帮助培训关系网络和危险网络在需要最大限度外部奖赏和需要进行交易之间实现交易, IDR, 将高级交易商的身份识别比对任务进行交易。 在确定合作- 网络中, 将高级交易代理商的绩效模式用于 IML, 将 IMRL 向其他风险评估 格式,,,, 将 将 将 将 格式 格式 将 格式 的 学习 选择 格式 格式,, 以 将 格式 格式 格式 格式 格式 与 选择 格式 格式 格式,, 以 格式 格式 格式,,, 格式 格式 与 将 格式 格式 格式,, 格式, 格式, 与,,, 与, 与 将 与 格式 将 格式 与 与 与 格式 格式, 格式 格式, 格式 格式, 格式 格式,, 格式 格式,, 格式,, 格式 格式, 与 格式 格式,, 格式 格式 与 与 格式 格式 格式 格式 格式, 与, 格式 格式,,,, 与 与, 与 与 与, 格式 格式, 格式,, 与 格式 格式