南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程

会员服务 ·

南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程

2022 年 2 月 4 日 专知

深度强化学习实验室

官网 ：http://www.neurondance.com/

论坛： http://deeprl.neurondance.com/

来源：南京大学, 香港中文大学团队

作者: 许天,李子牛,俞扬

简介

模仿学习，是一种从专家示例中进行学习的方法。这里专家示例指的是由最优（或者次优）策略采集到的状态-动作序列，智能体便是通过模仿专家示例来学习策略。模仿学习主要包含两大类算法框架：行为克隆和对抗式模仿学习。基于这两种算法框架，研究者们提出了各种各样的模仿学习算法，在实验中取得了很好的效果。尽管已经有很多对模仿学习算法的实验研究，关于模仿学习算法的理论分析直到最近才被逐步建立和完善。这些理论结果很好地解释了算法的实验现象，并且对今后的算法设计也有启发。
模仿学习简要教程着重从统计学习理论的角度来介绍模仿学习算法，能使读者对模仿学习算法有深刻的理解，使读者能够通过借助理论来分析已有的实验结果、并且设计更好的算法。

完整版PDF下载方式:

(1)登录论坛下载(未注册显示无权限下载)

http://deeprl.neurondance.com/d/382-29

教程细节

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“IL29” 就可以获取《南京大学&港中文联合总结: 29页中文详述《模仿学习》完整过程》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

相关内容

模仿学习

关注 322

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

港中文《深度学习单图像超分辨率》综述论文

专知会员服务

41+阅读 · 2021年9月30日

强化学习的自动驾驶控制技术研究进展

专知会员服务

139+阅读 · 2021年2月17日

基于生理信号的情感计算研究综述

专知会员服务

63+阅读 · 2021年2月9日

元强化学习综述及前沿进展

专知会员服务

62+阅读 · 2021年1月31日