本文为大家带来了一份斯坦福大学的最新课程CS234——强化学习,主讲人是斯坦福大学Emma Brunskill,她是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组,主要研究强化学习。要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。

1.课程介绍(Description)

要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将为强化学习领域提供扎实的介绍,学生将学习包括通用化和探索在内的核心挑战和方法。通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。作业将包括强化学习和深度强化学习的基础,这是一个极有前途的新领域,将深度学习技术与强化学习相结合。此外,学生将通过期末专题来增进对强化学习领域的理解。

课程地址:

https://web.stanford.edu/class/cs234/schedule.html

2.预备知识(Prerequisites)

1)熟练Python

所有的课程都将使用Python(使用numpy和Tensorflow,也可以使用Keras)。这里有一个针对那些不太熟悉Python的人的教程。如果你有很多使用不同语言(如C/ c++ / Matlab/ Javascript)的编程经验,可能会很好。

2)大学微积分,线性代数(如 MATH 51, CME 100)

你应该能够熟练地进行(多变量)求导,理解矩阵/向量符号和运算。

3)基本概率及统计(例如CS 109 或同等课程)

你应该了解基本的概率,高斯分布,均值,标准差等。

4)机器学习基础

我们将阐述成本函数,求导数,用梯度下降法进行优化。CS 221或CS 229均可涵盖此背景。使用一些凸优化知识,一些优化技巧将更加直观。

3.主讲:Emma Brunskill

Emma Brunskill是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组。

主要研究强化学习系统,以帮助人们更好地生活。并处理一些关键技术。最近的研究重点包括:1)有效强化学习的基础。一个关键的挑战是要了解代理商如何平衡勘探与开发之间的局限性。2)如果要进行顺序决策,该怎么办。利用巨大数量的数据来改善在医疗保健,教育,维护和许多其他应用程序中做出的决策,这是一个巨大的机会。这样做需要假设/反事实推理,以便在做出不同决定时对潜在结果进行推理。3)人在回路系统。人工智能具有极大地扩大人类智能和效率的潜力。我们正在开发一个系统,用其他众包商(CHI 2016)生产的(机器)固化材料对众包商进行训练,并确定何时扩展系统规格以包括新内容(AAAI 2017)或传感器。我们也有兴趣研究确保机器学习系统在人类用户的意图方面表现良好(Arxiv 2017),也被称为安全和公平的机器学习。

个人主页:https://cs.stanford.edu/people/ebrun/

4.课程安排

01: 强化学习导论(Introduction to Reinforcement Learning)

02: 表格MDP规划(Tabular MDP planning)

03: 表格RL政策评估(Tabular RL policy evaluation)

04: Q-learning

05: 带函数逼近的强化学习(RL with function approximation)

06: 带函数逼近的强化学习(RL with function approximation)

07: 带函数逼近的强化学习(RL with function approximation)

08: 从马尔可夫决策过程到强化学习(Policy search)

09: 从马尔可夫决策过程到强化学习(Policy search)

10: 课堂中期(In-class Midterm)

11: 模仿学习/探索(Imitation learning/Exploration)

12: 探索/开发(Exploration/Exploitation)

13: 探索/开发(Exploration/Exploitation)

14: 批处理强化学习(Batch Reinforcement Learning)

15: 嘉宾讲座:Craig Boutilier(Guest Lecture: Craig Boutilier)

16: 课堂测验(In-class Quiz)

17: 蒙特卡洛树搜索算法(Monte Carlo Tree Search)

18: 墙报展示(Poster presentations)

成为VIP会员查看完整内容
112

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
斯坦福大学经典《自然语言处理cs224n》2020课件合集
专知会员服务
94+阅读 · 2020年5月25日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
117+阅读 · 2020年5月6日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
107+阅读 · 2020年4月12日
深度强化学习策略梯度教程,53页ppt
专知会员服务
175+阅读 · 2020年2月1日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
17+阅读 · 2019年8月20日
重磅干货-Richard S. Sutton-2018年强化学习教程免费下载
深度学习与NLP
7+阅读 · 2018年4月1日
Arxiv
33+阅读 · 2020年1月2日
Arxiv
15+阅读 · 2019年9月11日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
21+阅读 · 2018年8月30日
Paraphrase Generation with Deep Reinforcement Learning
VIP会员
微信扫码咨询专知VIP会员