南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程

2022 年 2 月 4 日 专知

深度强化学习实验室

官网 :http://www.neurondance.com/
论坛 http://deeprl.neurondance.com/
来源:南京大学, 香港中文大学团队
作者: 许天,李子牛,俞扬

简介

模仿学习,是一种从专家示例中进行学习的方法。这里专家示例指的是由最优(或者次优)策略采集到的状态-动作序列,智能体便是通过模仿专家示例来学习策略。模仿学习主要包含两大类算法框架:行为克隆和对抗式模仿学习。基于这两种算法框架,研究者们提出了各种各样的模仿学习算法,在实验中取得了很好的效果。尽管已经有很多对模仿学习算法的实验研究,关于模仿学习算法的理论分析直到最近才被逐步建立和完善。这些理论结果很好地解释了算法的实验现象,并且对今后的算法设计也有启发。
模仿学习简要教程着重从统计学习理论的角度来介绍模仿学习算法,能使读者对模仿学习算法有深刻的理解,使读者能够通过借助理论来分析已有的实验结果、并且设计更好的算法。 

完整版PDF下载方式:

(1)登录论坛下载(未注册显示无权限下载)

http://deeprl.neurondance.com/d/382-29

教程细节




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“IL29” 就可以获取南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程》专知下载链接


专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资源
登录查看更多
3

相关内容

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。
专知会员服务
40+阅读 · 2021年9月30日
专知会员服务
133+阅读 · 2021年2月17日
基于生理信号的情感计算研究综述
专知会员服务
61+阅读 · 2021年2月9日
元强化学习综述及前沿进展
专知会员服务
61+阅读 · 2021年1月31日
专知会员服务
111+阅读 · 2020年12月31日
NLPCC 2020《预训练语言模型回顾》讲义下载,156页PPT
专知会员服务
47+阅读 · 2020年10月17日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
机器人运动轨迹的模仿学习综述
专知
1+阅读 · 2021年11月12日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
【DeepMind教程】蒙特卡罗树搜索,60页ppt
专知
2+阅读 · 2021年4月7日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Simple and Effective Unsupervised Speech Synthesis
Arxiv
2+阅读 · 2022年4月20日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
35+阅读 · 2021年8月2日
Arxiv
19+阅读 · 2020年7月21日
Anomalous Instance Detection in Deep Learning: A Survey
Arxiv
24+阅读 · 2020年3月11日
Knowledge Representation Learning: A Quantitative Review
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
专知会员服务
40+阅读 · 2021年9月30日
专知会员服务
133+阅读 · 2021年2月17日
基于生理信号的情感计算研究综述
专知会员服务
61+阅读 · 2021年2月9日
元强化学习综述及前沿进展
专知会员服务
61+阅读 · 2021年1月31日
专知会员服务
111+阅读 · 2020年12月31日
NLPCC 2020《预训练语言模型回顾》讲义下载,156页PPT
专知会员服务
47+阅读 · 2020年10月17日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
相关论文
Simple and Effective Unsupervised Speech Synthesis
Arxiv
2+阅读 · 2022年4月20日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
35+阅读 · 2021年8月2日
Arxiv
19+阅读 · 2020年7月21日
Anomalous Instance Detection in Deep Learning: A Survey
Arxiv
24+阅读 · 2020年3月11日
Knowledge Representation Learning: A Quantitative Review
Arxiv
25+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员