强化学习是人工智能领域的一个分支,研究智能体在特定系统中通过试错学习采取行动的方法。其著名案例包括控制真实机器人或在多数人类热门高难度游戏中实现超人类表现。为开展此类研究,学者通常使用标准化“环境”(如机器人仿真或电子游戏)评估学习方法性能。本文涵盖以下内容:
PettingZoo:提供标准化API与多智能体强化学习参考环境集的库,已获广泛应用;
SuperSuit:提供易用标准化预处理封装器的库,用于对接学习框架;
街机学习环境(Arcade Learning Environment)扩展:该流行工具被强化学习研究者用于Atari 2600游戏交互,本扩展支持多人游戏模式。
基于上述工具,本文还利用多智能体强化学习开发了一种自然科学研究新方法。“涌现行为”指智能体群体的协调行为(如人行道行人、鸟群编队、交通车流或股市交易者),代表诸多科学领域中普遍未解的重要现象。本研究首次提出通过多智能体强化学习(MARL)系统搜索多智能体系统中所有可能良性(“成熟”)涌现行为的数学形式化框架,并构建基于深度强化学习的初级实现,可应用于任意环境。实验表明,在12个多智能体系统中,该方法可发现超百种涌现行为,其中多数为环境设计者此前未知。此类方法有望解答各类开放科学问题,例如:“该系统可能存在哪些行为?”、“何种系统条件促成此类涌现行为?”或“如何调整系统以抑制特定涌现行为?”