人工智能已经在围棋、图像识别和语音识别等领域达到甚至超越了人类专家水平,但智能化的机器离我们仍然很远。要想实现通用智能,AI智能体必须学习如何在共享环境中与「他人」进行互动,由此便产生了人工智能的一个前沿研究领域:多智能体学习。
多智能体学习的问题存在于多个领域。在这些问题中,多个智能体不仅与环境相互作用,而且彼此互动,由此造成的复杂和多变性为研究带来了诸多挑战。此外,多智能体学习在现实生活中有着广泛的应用,比如无人机群的控制、仓库机器人的合作、分布式传感器网络/交通的优化、机器竞标等。
最近,UCL课程《多智能体机器学习(2021)》上线机器之心知识商店,主讲人为伦敦大学学院(UCL)计算机系教授汪军,适合计算机科学以及机械和航空工程等专业的本科生、研究生,从事机器学习、多智能体协同控制等领域的工程技术人员。
课程观看地址:
https://app6ca5octe2206.pc.xiaoe-tech.com/detail/p_603db816e4b0a77c389892d3/6
本课程基于伦敦大学学院计算机系2020-2021学年度课程Multi-agent Artificial Intelligence (20/21),主要介绍多智能体机器学习。课程将机器学习的研究与博弈论和经济学研究相结合,包括博弈论、拍卖理论、算法机制设计、多智能体(深度)强化学习等主题,同时还将讨论相关的实际应用,包括在线广告、在线拍卖、生成模型的对抗训练、机器人规划,以及玩在线游戏的智能体。
本课程由RLChina(微信公众号:RLCN)制作,RLChina是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
课程为英文授课,与UCL授课进度同步,每周五更新,如有变化以课程交流群中通知为准。
讲师简介
汪军,伦敦大学学院计算机系教授,阿兰·图灵研究所 Turing Fellow,华为诺亚方舟实验室决策推理首席顾问。主要研究智能信息系统,包括机器学习、强化学习、多智能体、数据挖掘、计算广告学、推荐系统等。汪军教授目前已发表 120 多篇学术论文,出版两本学术专著,并多次获得最佳论文奖。
课程目录
1.1 博弈论的基本概念
1.2 纯策略纳什均衡
1.3 混合策略纳什均衡
1.4 纳什均衡的存在性证明
1.5 古诺双寡头模型
2.2 扩展形式的博弈(Extensive-form game)
3.2 极大极小博弈(Minmax Game)介绍
3.5 Lemke–Howson 算法求解线性互补问题
6.2 Model-based 方法:马尔科夫决策过程,动态规划求解
6.3 Model-free方法:蒙特卡洛,时序差分,Q-learning
6.4 深度强化学习实例:Atari,Alpha Go
7.3 均衡学习:纳什-Q,Minmax-Q,Friend-Foe-Q
7.4 最佳对策:JAL与对手建模,梯度提升,Wolf-IGA
10.5 Many-agent 学习
课程交流群
欢迎大家加入课程交流群,共同学习讨论。我们也将在群中第一时间发布更新通知。
如群已超出人数限制,添加机器之心小助手:syncedai5、syncedai4或syncedai3,备注「UCL」即可加入。
点击「阅读原文」,即刻开始学习。