现代人工智能(AI)系统通常需要在一个未知的、不确定的、可能敌对的环境中,通过积极地与环境交互来收集相关数据,从而做出连续的决策。强化学习(RL)是一个通用框架,可以捕获交互式学习设置,并已被用于设计智能代理,以实现超人水平的表现,在具有挑战性的任务,如围棋,电脑游戏,机器人操作。

这门研究生水平的课程着重于强化学习的理论和算法基础。本课程的四个主题为: (1)可证明有效的探索; (2)策略优化(特别是策略梯度); (3)控制; (4)模仿学习。

通过本课程,学生将能够理解经典的和最新的可证明正确的RL算法及其分析。学生将能够对与RL相关的课题进行研究。

成为VIP会员查看完整内容
0
47

相关内容

强化学习理论(RL),重点是样本复杂性分析。

  • Basics of MDPs and RL.
  • Sample complexity analyses of tabular RL.
  • Policy Gradient.
  • Off-policy evaluation.
  • State abstraction theory.
  • Sample complexity analyses of approximate dynamic programming.
  • PAC exploration theory (tabular).
  • PAC exploration theory (function approximation).
  • Partial observability and dynamical system modeling.

http://nanjiang.cs.illinois.edu/cs598/

成为VIP会员查看完整内容
0
34

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
117

强化一词来源于实验心理学中对动物学习的研究,它指的是某一事件的发生,与某一反应之间有恰当的关系,而这一事件往往会增加该反应在相同情况下再次发生的可能性。虽然心理学家没有使用“强化学习”这个术语,但它已经被人工智能和工程领域的理论家广泛采用,用来指代基于这一强化原理的学习任务和算法。最简单的强化学习方法使用的是一个常识,即如果一个行为之后出现了一个令人满意的状态,或者一个状态的改善,那么产生该行为的倾向就会得到加强。强化学习的概念在工程领域已经存在了几十年(如Mendel和McClaren 1970),在人工智能领域也已经存在了几十年(Minsky 1954, 1961;撒母耳1959;图灵1950)。然而,直到最近,强化学习方法的发展和应用才在这些领域占据了大量的研究人员。激发这种兴趣的是两个基本的挑战:1) 设计能够在复杂动态环境中在不确定性下运行的自主机器人代理,2) 为非常大规模的动态决策问题找到有用的近似解。

成为VIP会员查看完整内容
0
162
小贴士
相关主题
相关VIP内容
专知会员服务
70+阅读 · 2020年9月20日
专知会员服务
34+阅读 · 2020年9月7日
专知会员服务
49+阅读 · 2020年8月30日
专知会员服务
162+阅读 · 2020年4月19日
专知会员服务
61+阅读 · 2020年1月15日
【强化学习】深度强化学习初学者指南
专知会员服务
102+阅读 · 2019年12月14日
相关资讯
强化学习精品书籍
平均机器
10+阅读 · 2019年1月2日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
15+阅读 · 2018年8月17日
OpenAI强化学习实战
炼数成金订阅号
6+阅读 · 2018年5月14日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
9+阅读 · 2018年2月23日
【强化学习】强化学习入门以及代码实现
产业智能官
15+阅读 · 2017年9月4日
相关论文
Generalization and Regularization in DQN
Jesse Farebrother,Marlos C. Machado,Michael Bowling
5+阅读 · 2019年1月30日
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation
Perttu Hämäläinen,Amin Babadi,Xiaoxiao Ma,Jaakko Lehtinen
3+阅读 · 2018年12月18日
A Multi-Objective Deep Reinforcement Learning Framework
Thanh Thi Nguyen
9+阅读 · 2018年6月27日
Abhishek Gupta,Benjamin Eysenbach,Chelsea Finn,Sergey Levine
6+阅读 · 2018年6月12日
Tambet Matiisen,Aqeel Labash,Daniel Majoral,Jaan Aru,Raul Vicente
4+阅读 · 2018年5月21日
Qingyao Ai,Keping Bi,Jiafeng Guo,W. Bruce Croft
4+阅读 · 2018年4月23日
Haque Ishfaq,Assaf Hoogi,Daniel Rubin
3+阅读 · 2018年4月3日
Roberta Raileanu,Emily Denton,Arthur Szlam,Rob Fergus
4+阅读 · 2018年3月22日
Clement Carbonnel,David A. Cohen,Martin C. Cooper,Stanislav Zivny
3+阅读 · 2017年12月22日
Anand Gupta,Hardeo Thakur,Ritvik Shrivastava,Pulkit Kumar,Sreyashi Nag
3+阅读 · 2017年11月25日
Top