麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚,RLChina 2021 强化学习暑期课免费报名啦!

2021 年 8 月 12 日 CSDN

2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石、中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启。站在技术角度,在探讨其背后人工智能应用的同时,深度强化学习这一专业术语走近了大众视野。

强化学习之父 Richard Sutton 曾评价道:“强化学习是人工智能的未来。如今深度强化学习在无人驾驶计算机博弈、人机交互、机器人控制、文本生成等领域都展现了强悍的学习能力,吸引了诸多爱好者。为此 RLChina 特别推出了“充电续航”栏目,为强化学习爱好者带来了超质量强化学习暑假课!

该课程由 UCL 汪军老师发起,不仅有来自北京大学、清华大学、麻省理工大学等全球顶级高校和企业20 位强化学习专家授课,还有智能体竞赛日、决策智能创业日等安排体验强化学习的落地实践,更重要的是,这是分享给广大强化学习爱好者的免费网络直播课程

课程安排


时 间

  • 2021 年 8 月 16 日至 22 日

讲 师

  • 来自全球顶尖高校和企业的 20 位强化学习专家

授 课 形 式

  • 开放的免费网络直播课程

课 程 内 容

覆盖强化学习入门、进阶、前沿、实战,适合各种阶段和各种背景的强化学习爱好者。


课程介绍


课程表

今年的暑期课将持续一周时间,周一至周五是主课和习题课,周六和周日分别是智能体竞赛日和决策智能创业日,具体的课程表如下:

报名方式

扫码下方二维码,直接提前预约“占座”。




教师介绍


第1课 机器学习入门 

—— 机器学习和深度学习基础

陈旭,现为中国人民大学高瓴人工智能学院准聘助理教授。博士毕业于清华大学,博士期间曾在佐治亚理工学院进行交流访问,博士毕业后曾在英国伦敦大学学院担任博士后研究员,于 2020 年加入中国人民大学。其主要研究方向为推荐系统,强化学习,因果推断等。曾在 SIGIR、TOIS、WWW、WSDM、CIKM、AAAI 等信息检索领域顶级会议和期刊发表论文 40 余篇。曾获得 The Web Conference 2018 最佳论文提名奖、AIRS 2017 最佳论文奖。

第2课 机器学习进阶 

—— 机器学习中的优化理论和方法

张景昭,MIT博士在读,本科毕业于UC Berkeley,将于 2022 年担任清华大学交叉信息科学院助理教授。研究项目主要集中于优化算法,希望通过研究算法的复杂度框架来改进复杂度分析,从而得到更符合实际的理论。对Online Learning, Reinforcement Learning以及其学习应用也有科研经验。

第3课 博弈论入门 

—— 博弈、策略和均衡

张海峰,中国科学院自动化研究所副研究员,领导群体决策智能团队。于北京大学计算机系获得本科、博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作,研究兴趣包括智能体策略评估、多智能体强化学习算法等,研究成果发表在 ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊;曾负责研发北京大学Botzone多智能体博弈系统(www.botzone.org.cn),累计注册用户超过 1 万人,并在人工智能国际会议  IJCAI 成功举办“中国麻将智能体竞赛”。

第4课 博弈论进阶 

—— 机制设计和博弈复杂度

刘正阳,北京理工大学计算机学院助理教授。分别于 2013 和 2018 年取得上海交通大学计算机科学与技术专业本科(ACM班)与博士学位。对理论计算机科学具有浓厚的兴趣,目前主要研究方向为算法博弈论与复杂性。

第5课 强化学习入门(一)

—— 强化学习的值函数和策略方法

张伟楠博士现任上海交通大学电子信息与电气工程学院约翰·霍普克罗夫特计算机科学中心长聘教轨副教授、博士生导师,科研领域包括强化学习、信息检索和数据科学,相关的研究成果在国际会议和期刊上发表超过 100 篇学术论文。张伟楠长期担任 ICML、NeurIPS、ICLR、KDD、AAAI、IJCAI、SIGIR 等机器学习和数据科学的会议(高级)程序委员和 JMLR、TOIS、TKDE、TIST 等期刊的评审以及 FCS 的青年编委。张伟楠于 2017 年获得上海 ACM 新星奖;2018 年获华为最佳合作贡献奖;2018 年获首届达摩院青橙奖。他的研究工作于 2017 年获 ACM 国际信息检索会议 SIGIR 的最佳论文提名奖;2019 年获 ACM SIGKDD 深度学习实践研讨会最佳论文奖;2020 年获国际机器人学习会议 CoRL 最佳系统论文奖。张伟楠于 2011 年在上海交通大学计算机系 ACM 班获得学士学位,于 2016 年在伦敦大学学院计算机系获得博士学位。

第6课 强化学习入门(二) 

—— 规划和马尔可夫决策过程

王梦迪,普林斯顿大学电子工程系以及统计与机器学习中心的副教授。同时,她还隶属于运筹与金融工程系及计算机系。王梦迪于 2007 年从清华大学获得信息科学与控制论学士学位,于 2013 年获得麻省理工学院电子工程和计算机科学博士学位。她的研究专注于数据驱动的随机优化及其在机器学习和强化学习中的应用。

第7课 强化学习进阶(一) 

—— 强化学习的样本复杂性和探索

杨卓然,普林斯顿大学运筹学与金融工程系的博士研究生,将于 2022 年担任耶鲁大学统计与数据科学系助理教授。他于 2015 年获得清华大学数学系学士学位,研究方向是统计机器学习和增强学习,旨在从理论角度理解高维度非线性模型的统计和计算问题,同时致力于将大规模算法和多 Agent 增强学习算法应用在机器人和 AI 游戏中,曾获得 Francis Robbins Upton Fellowship 奖和 Tencent Ph.D Fellowship 奖,并于 NeurIPS,ICML 等顶级会议发表多篇论文。

第8课 强化学习进阶(二) 

—— 概率强化学习和贝叶斯大脑

汪军是伦敦大学学院(UCL)计算机系教授,阿兰·图灵研究所 Turing Fellow,华为诺亚方舟实验室决策推理首席顾问科学家。主要研究智能信息系统,包括机器学习、强化学习、多智能体,数据挖掘、计算广告学、推荐系统等。

第9课 强化学习前沿(一) 

—— 离线强化学习

卢宗青,北京大学计算机系“博雅”助理教授,人工智能研究院研究员。主要研究领域为强化学习,发表论文 40 余篇,包括 NeurIPS、ICML、ICLR 等。他于南洋理工大学获得博士学位,于东南大学获得硕士和学士学位。

第10课 强化学习前沿(二) 

—— 模仿学习

俞扬博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习。获 2013 年全国优秀博士学位论文奖、 2011 年CCF优秀博士学位论文奖。发表论文 40 余篇,包括多篇 Artificial Intelligence、IJCAI、AAAI、NeurIPS、KDD等,获得4项国际论文奖励和2项国际算法竞赛冠军,入选 2020 年 CCF-IEEE CS 青年科学家奖、2018 年 IEEE Intelligent Systems 杂志评选的“国际人工智能 10 大新星”,获 2018 亚太数据挖掘“青年成就奖”,受邀在 IJCAI’18 作关于强化学习的“青年亮点”报告。

第11课 多智能体入门(一) 

—— 多智能体学习

杨耀东博士现任英国伦敦大学国王学院计算机系助理教授,科研领域包括强化学习、博弈论和多智能体强化学习,相关的研究成果在国际会议和期刊上发表超过 30 篇学术论文。杨耀东长期担任 ICML、NeurIPS、ICLR、AAAI 等机器学习会议程序委员和 JMLR、IEEE TNNLS、IEEE Cybernatics 审稿人。他的研究工作于 2020 年获国际机器人学习会议 CoRL 最佳系统论文奖, 2021 年获国际多智能体系统会议 AAMAS (blue sky track)最佳论文奖。杨耀东于中国科学技术大学获得学士学位,于英国帝国理工大学获得硕士学位,于英国伦敦大学学院获得博士学位。

第12课 多智能体入门(二) 

—— 智能体策略的评估

杜雅丽,伦敦大学学院多智能体学习团队研究员,于 2019 年获悉尼科技大学博士学位。主要研究兴趣为机器学习、强化学习及其在游戏 AI、推荐检索和传统控制问题中的应用。目前主要从事多智能体算法的设计和研究,包括灵活控制任意数量的智能体、奖励多样性行为、多智能体信用分配、多智能体交互结构学习和学习模型的鲁棒性等。相关研究成果已广泛发表在 ICML、NeurIPS、IJCAI、IEEE TMM 等刊物。

第13课 多智能体进阶(一) 

—— 多智能体强化学习算法

张崇洁,清华大学交叉信息科学院助理教授,博士生导师。2011 年在美国麻省大学阿默斯特分校获计算机科学博士学位,而后在美国麻省理工学院从事博士后研究。目前的研究专注于人工智能、深度强化学习、多智能体系统等领域。相关的研究成果在 ICLR、ICML、NeurIPS、AAAI 等国际会议上发表 30 余篇学术论文。

第14课 多智能体进阶(二) 

—— 基于平均场的多智能体强化学习

徐任远,南加州大学(USC)工业系统工程系助理教授。其主要研究方向为随机控制,博弈论与机器学习的交叉领域以及在金融方向的应用。徐任远本科毕业于中国科学技术大学数学学院(2014),于加州大学伯克利分校(UC Berkeley)工业工程系获得博士学位(2019),并曾于牛津大学(University of Oxford)数学系从事博士后工作(Hooke Research Fellow,2019-2021)。

第15课 多智能体前沿(一) 

—— 捉迷藏游戏策略和开放问题

吴翼,清华大学交叉信息研究院助理教授, 2019 年于加州大学伯克利分校获得博士学位,曾任 OpenAI 多智能体团队研究员。2014 年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括 OpenAI Hide-and-Seek Project,MADDPG 算法,Value Iteration Network 等,曾获 NeurIPS 2016 最佳论文奖。

第16课 多智能体前沿(二) 

—— 深度学习求解大规模复杂博弈

安波是南洋理工大学校长委员会讲席副教授和南洋理工大学人工智能研究院联席院长。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习及优化。有 100 余篇论文发表在国际顶级会议 AAMAS、IJCAI、AAAI、KDD、UAI、EC、WWW、ICLR、NeurIPS、ICML 以及著名学术期刊 JAAMAS和AIJ上。曾获 IFAAMAS 杰出博士论文奖、 美国海岸警卫队的卓越运营奖、AAMAS 最佳应用论文奖、IAAI 创新应用论文奖、DAI 最佳论文奖、INFORMS Daniel H. Wagner 杰出运筹学应用奖,以及南洋青年研究奖等荣誉。受邀在 IJCAI'17 上做 Early Career Spotlight talk。获得 2017 年微软合作 AI 挑战赛的冠军。入选 2018 年 IEEE Intelligent Systems“AI's 10 to Watch”。他是 AIJ,JAAMAS,IEEE Intelligent Systems,JAIR,ACM TIST 的 Associate Editor。他是 AAMAS'20 的程序委员会主席。当选国际智能体及多智能体系统协会理事会成员及 AAAI 高级会员。

第17课 专题报告(一) 

—— 强化学习训练系统

温颖,上海交通大学约翰·霍普克罗夫特计算机科学中心长聘教轨助理教授。他的研究方向涉及多智能体学习,强化学习及博弈论在其中的应用。他分别于 2020 年和 2016 年获得英国伦敦大学学院计算机系博士学位和研究型硕士学位。他的十余篇研究成果发表在 ICML, ICLR, IJCAI, AAMAS 等相关领域的一流国际会议上,并且获得 CoRL 2020 最佳系统论文奖和 AAMAS Bule Sky Track 最佳论文奖。他连续多年担任 ICML, NeurIPS, ICLR, IJCAI, AAAI, ICAPS, Operational Research 等国际知名会议/期刊的 PC 成员或审稿人。

第18课 专题报告(二) 

—— 多智能体通信与协同中的博弈论与强化学习

方飞,卡内基梅隆大学计算机学院软件研究所助理教授。在加入 CMU 之前,她是哈佛大学的博士后研究员,2016 年她获得了南加州大学(USC)的博士学位。方飞的研究方向是人工智能和多智能体系统,致力于将机器学习与博弈论相结合。她的研究曾多次获得顶级 AI 会议的奖项,包括 IJCAI 2021 Computer and Thought Award, IJCAI-ECAI’18 杰出论文奖、IAAI’16 创新应用奖、IJCAI’15 的 CompSust Track 杰出论文奖。她的论文曾获IFAAMAS-16 Victor Lesser Distinguished Dissertation 奖的亚军、William F. Ballhaus, Jr. Prize 以及南加州大学计算机科学最佳论文奖。她的研究被成功部署到保护渡轮线路和反偷猎的应用中,为构建更好社会环境做出了贡献。

第19课 专题报告(三) 

—— 强化学习在快手的应用

刘霁博士毕业于威斯康辛大学计算机系,曾就职于罗切斯特大学计算机系博士生导师。现担任快手 AI 平台部、Ytech 西雅图人工智能实验室和 FeDA 商业化智能实验室负责人,以及游戏 AI 实验室联合负责人。他从事机器学习以及人工智能研究和应用超过 15 年,涉猎领域包括分布式机器学习,运筹优化,推荐/广告系统和算法,计算机视觉,强化学习/游戏 AI,联邦学习,数据分析,机器人等,参与主导过多项美国自然科学基金项目。他在顶级计算机会议及其期刊上发表了超过 100 篇论文,并曾担任 NeurIPS、ICML、AAAI、IJCAI 等多个国际顶级会议的(Senior) Area Chair。他带领团队曾多次在各类国际竞赛中获奖。2017 年他被评为 MIT 科技评论评为中国 35 位 35 岁以下科技创新者,2018 年入选中国 5 位 35 岁以下 AI 风云人物。

第20课 专题报告(四) 

—— 深度强化学习的挑战和落地

郝建业博士,天津大学智算学部副教授,博士生导师,华为诺亚方舟决策与推理实验室主任。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文 100 余篇,专著 2 部。主持参与国家基金委、科技部、天津市人工智能重大等科研项目 10 余项,研究成果荣获 ASE2019、DAI2019、CoRL2020 最佳论文奖等,同时在游戏 AI、广告及推荐、自动驾驶、网络优化等领域落地应用。

习题课 

—— 动手学强化学习

林舒,中国科学院自动化研究所助理研究员,主要研究领域包括组合优化问题求解、程序自动生成和算法优化、游戏 AI、编程基础教育等。分别于 2021 年和 2013 年在北京大学获得计算机软件与理论博士学位和计算机科学与技术学士学位。

阅读原文”提前“占座”!

登录查看更多
5

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
RLChina强化学习课程,国内众大牛讲解,(附课件pdf下载)
专知会员服务
56+阅读 · 2021年4月12日
【微软】人工智能系统课程
专知会员服务
89+阅读 · 2020年12月31日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
111+阅读 · 2020年4月12日
 第八届中国科技大学《计算机图形学》暑期课程课件
专知会员服务
56+阅读 · 2020年3月4日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
119+阅读 · 2020年1月15日
前沿知识特惠团《OpenAI强化学习实战》
炼数成金订阅号
3+阅读 · 2018年12月4日
为什么机器人企业的算法工程师需要ROS开发经验
算法与数学之美
6+阅读 · 2018年3月22日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
招聘 | 深度强化学习研究员/工程师
七月在线实验室
7+阅读 · 2017年12月27日
报名 | 知识图谱前沿技术课程(苏州大学站)
PaperWeekly
12+阅读 · 2017年11月27日
博士团队带您入门机器学习,课程大优惠,限额30人,赶快上车啦!!!
报名 | 知识图谱前沿技术课程(暨学术交流)
PaperWeekly
17+阅读 · 2017年7月10日
Arxiv
0+阅读 · 2021年10月14日
Arxiv
0+阅读 · 2021年10月13日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
VIP会员
相关资讯
前沿知识特惠团《OpenAI强化学习实战》
炼数成金订阅号
3+阅读 · 2018年12月4日
为什么机器人企业的算法工程师需要ROS开发经验
算法与数学之美
6+阅读 · 2018年3月22日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
招聘 | 深度强化学习研究员/工程师
七月在线实验室
7+阅读 · 2017年12月27日
报名 | 知识图谱前沿技术课程(苏州大学站)
PaperWeekly
12+阅读 · 2017年11月27日
博士团队带您入门机器学习,课程大优惠,限额30人,赶快上车啦!!!
报名 | 知识图谱前沿技术课程(暨学术交流)
PaperWeekly
17+阅读 · 2017年7月10日
Top
微信扫码咨询专知VIP会员