美国首位人工智能协会(AAAI)华人Fellow,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学杨强教授曾说:“深度学习是昨天,强化学习是今天。”
现在但凡写人工智能的文章,必提AlphaGo。因为AlphaGo在围棋人机大战中里程碑式的胜利,人工智能迎来了新的春天,同时,正是AlphaGo的问世,将强化学习的研究推向了新的高度,使得强化学习成为当下机器学习最火热的研究领域。
强化学习(或者增强学习)本质是解决决策问题,针对一个具体问题得到一个最优的策略,使得在该策略下获得的奖励最大。它的思想与人类的学习过程有很大的相似性,是一种基于环境反馈而做决策的通用框架,因此被认为是迈向通用人工智能的重要途径。
随着数据处理能力的逐步提升以及深度学习的发展,强化学习解决复杂问题的能力也得到了较大的提高,除应用于机器人控制、无人驾驶、游戏博弈,还应用于制造业、电商广告推荐等与我们生活息息相关的领域中。
虽然强化学习已经引起国内外足够的关注,但由于中文资料少之又少,国内鲜有高校开设系统性的课程,同时缺乏相互交流的圈子。深蓝学院联合中科院自动化所、清华大学的老师和研究生,打磨推出『强化学习理论与实践』在线课程。课程通过理论与代码实践,让大家掌握算法的核心思想,并安排Project大作业,体验强化学习的实际应用;同时,建立课程答疑群,便于相互交流学习。
张启超 中科院自动化所复杂系统管理与控制国家重点实验室助理研究员,中科院自动化所博士,研究方向为强化学习、自适应动态规划及博弈论。在顶级期刊和会议TNNLS、TCYB、IEEE CIM、WCCI上以第一作者身份发表十多篇文章,获得中科院院长优秀奖、北京市优秀毕业生等,团队在2017中国智能车未来挑战赛中获得两项冠军(离线测试比赛前方车辆检测、前方车辆距离监测)。
陈达贵 清华大学自动化系控制理论研究所硕士生,主要研究方向是深度强化学习的理论和计算图形学,具有丰富的深度学习和深度强化学习实践经验。
第1章 概述
1.1 强化学习问题
1.2 强化学习的组成
1.3 智能体的组成
1.4 强化学习的分类
1.5 强化学习中的关键概念
1.6 编程实践:环境和随机策略
第2章 马尔可夫决策过程
2.1 马尔可夫过程
2.2 马尔可夫奖励过程
2.3 有限马尔可夫决策过程
2.4 马尔可夫决策过程的引申
2.5 编程实践:马尔可夫决策过程
第3章 动态规划
3.1 动态规划简介
3.2 策略评价
3.3 策略提升
3.4 策略迭代
3.5 值迭代
3.6 动态规划引申
3.7 编程实践:在Gridworld上的策略迭代和值迭代
第4章 无模型方法一:蒙特卡洛
4.1 无模型方法简介
4.2 On-policy和Off-policy
4.3 蒙特卡洛方法简介
4.4 蒙特卡洛评价
4.5 蒙特卡洛优化
4.6 增量算法
4.7 编程实践:蒙特卡洛方法
第5章 无模型方法二:时间差分
5.1 时间差分简介
5.2 时间差分评价
5.3 SARSA
5.4 Q学习
5.5 编程实践:TD算法
第6章 无模型方法三:多步自举
6.1 多步自举简介
6.2 TD(lambda)
6.3 SARSA(lambda)
6.4 off-policy下的多步自举
6.5 编程实践:n-step TD
第7章 函数近似与深度网络
7.1 函数近似
7.2 梯度下降算法
7.3 深度学习基础
7.4 编程实践:深度学习框架
第8章 策略梯度算法
8.1 策略梯度简介
8.2 策略梯度定理
8.3 REINFORCE规则
8.4 Actor-Critic算法
8.5 TRPO算法
8.6 编程实践:AC算法
第9章 深度强化学习
9.1 DQN
9.2 A3C
9.3 DDPG
9.4 PPO
9.5 编程实践:Atari游戏
第10章 基于模型的强化学习
10.1 基于模型的强化学习简介
10.2 基于模型的规划
10.3 Dyna算法
10.4 基于仿真的搜索
第11章 前景与大作业
11.1 探索和利用
11.2 基于模型的强化学习方法
11.3 分层强化学习
11.4 反强化学习和示范学习
11.5 多智能体强化学习
11.6 记忆和注意力机制
11.7 元学习
11.8 Project大作业
本课程主要面向初学者,讲述强化学习的基础理论,介绍强化学习的基本应用,给学员建立系统的强化学习理论体系。同时,本课程会带领学员了解其相关的最新技术,解决复杂环境下的强化学习问题。
1、课程学习结束,根据每次作业的分数,评选优秀学员;
2、优秀学员获得深蓝学院颁发的证书;
3、优秀学员推荐至企业实习或者就业,有机会获得旷视科技(Face++)2000元奖学金。
高等数学、线性代数、概率论、Python等
前200位报名的同学可添加助教欣然微信(shenlan-xinran)领取100元的早鸟报名优惠券。
点击“阅读原文”,了解旷视(Face++)奖学金