人工智能分布式部署中智能体系统的广泛应用,对高效选择影响智能体学习行为的参数、在复杂环境中实施机制设计,以及整合多元智能体能力实现目标结果提出了新挑战。算法机制设计作为计算机科学、数学和经济学的交叉领域,致力于开发引导理性智能体达成预期行为的算法,其应用涵盖资源分配、成本分摊、定价与组合拍卖等场景。然而,传统方法受限于计算约束与静态假设,在充满不确定性与动态变化的环境中效果不佳。
本论文通过融合强化学习(RL)与贝叶斯优化(BO),针对动态多智能体场景开发自适应机制以突破上述局限。我们提出多智能体强化学习(MARL)中机制设计的新框架,依托创新的BO方法高效探索潜力方案。MARL可捕捉随机环境中多智能体动态交互的复杂性,通过求解底层马尔可夫博弈以学习联合策略。评估多MARL场景的计算复杂度问题通过以下方式解决:(I)扩展后继特征至纳什均衡策略的迁移学习;(II)采用BO框架限定评估预算,使问题可解。
所提机制设计框架的有效性在出租车平台司机服务费设定、共享自然资源开发管理(社会福利最大化)、探索任务机器人集群硬件采购决策优化,以及激励机制与招募策略设计(委托方目标最优化)等实际应用的基准研究中得到验证。该方法在现实问题上展现的优越性,凸显了BO与MARL融合优化复杂多智能体系统的潜力,为机制设计领域的未来研究奠定了坚实基础。