成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
NeurIPS 2020线上分享 | 南京大学直博生许天:模仿学习中行为克隆和对抗式方法的深度分析
2020 年 11 月 10 日
机器之心
不确定条件中的序列决策由于随机动力学和延迟反馈的影响而具有挑战性。强化学习和模仿学习都可以成为解决这类决策问题的方法。但是,与从延迟反馈中学习的强化学习(RL)相比,模仿学习(IL)从提供即时反馈的专家示例中学习,能够得到良好的策略,这在游戏、机器人控制以及自动驾驶等领域得到了证明。
而针对模仿学习的研究基于各自视角开发出了不同的算法,行为克隆(behavioral cloning, BC)即是其中一种。该算法通过监督学习最小化行动概率差异以达成策略学习。2016 年,斯坦福大学学者 Jonathan Ho 和 Stefano Ermon 在他们的论文《Generative Adversarial Imitation Learning》中提出了一种新颖的生成对抗式模仿学习 GAIL,其中判别器根据与专家示例的相似度为智能体行为评分,然后智能体学习将分数最大化,最终产生专家级别的行为。
虽然 GAIL 性能优于 BC 在很多研究中得到了验证,但其背后的理论解释却无法被人们充分地理解。近来也出现了试图理解 GAIL 泛化和计算性能的研究。在本期分享的这篇 NeurIPS 2020 论文中,来自南京大学等机构的研究者深入探讨了专家策略与 BC 和 GAIL 模仿策略之间价值差距的误差边界,以及这些方法中示例的复杂度。研究者认为,更丰富的判别器设置依然是减少策略价值差异所必需的,并且他们还从理论上证明了即使提供了不完整的轨迹,GAIL 同样能够很好地泛化。
不仅如此,在分析模仿策略的基础上,研究者进一步分析了模仿环境的误差边界。结果表明,相比于行为克隆,对抗式模仿能够更有效地学习环境模型,这也表明了一种基于模型的强化学习方向上的环境模型学习新思路。
在本期分享中,机器之心邀请到了论文一作、南京大学人工智能学院二年级博士生许天(Tian Xu),为我们详细解读模仿学习中的行为克隆和对抗式模仿。
分享主题:
关于模仿学习中行为克隆和对抗式方法的深度分析
分享嘉宾:
许天,南京大学人工智能学院计算机科学与技术专业的二年级直博生,导师是俞扬教授。他的研究方向是强化学习理论,目前关注模仿学习和基于模型的强化学习。
分享概要:
相比强化学习从试错中学习,模仿学习通过专家示例来学习策略,有着更高的样本效率。行为克隆和对抗式模仿是模仿学习中的两类重要算法,行为克隆将序列决策任务约简为监督学习任务,存在着误差累积的问题;对抗式模仿则将模仿学习建模为 minimax 问题,取得比行为克隆更好的实验效果,但缺乏理论保障。
本文中,我们从价值差距的角度,对行为克隆和对抗式模仿进行理论分析。结果表明行为克隆的价值差距与 MDP 有效长度是二次依赖,而对抗式模仿的价值差距是线性依赖,有更小的误差累积。值得注意的是,如果将环境模型看作是对偶智能体,模仿学习亦可以用来学习环境转移模型。因此,基于模仿策略的分析,我们更进一步分析了模仿环境时的两类算法的理论性能。分析结果表明,相比于行为克隆,对抗式模仿能够更有效地学习环境模型,这也表明了一种在基于模型的强化学习方向上的环境模型学习的新思路。
直播时间:
北京时间 11 月 12 日 20:00-21:00
论文链接:https://arxiv.org/abs/2010.11876
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
添加机器之心小助手(syncedai5),备注「2020」,加入本次直播群。
ps:
如果小助手无法添加,请将「微信 ID」发送邮件到 dujiahao@jiqizhixin.com,我们将与你联系,邀你入群。
登录查看更多
点赞并收藏
0
暂时没有读者
4
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
模仿学习
关注
320
模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。
最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授,附下载
专知会员服务
40+阅读 · 2020年12月6日
【NeurIPS 2020】对图神经网络更切实的对抗式攻击
专知会员服务
23+阅读 · 2020年11月5日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【康奈尔】最新《强化学习基础》CS 6789课程
专知会员服务
67+阅读 · 2020年9月27日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架
专知会员服务
56+阅读 · 2020年5月26日
基于生成对抗网络的模仿学习综述, 苏州大学,计算机学报
专知会员服务
45+阅读 · 2020年2月1日
【报告推荐】模仿学习前沿进展,62页ppt,New Frontiers in Imitation Learning
专知会员服务
38+阅读 · 2019年11月13日
视频 | NeurIPS 2019分享:清华大学孙富春组提出全新模仿学习理论
机器之心
11+阅读 · 2019年11月20日
今晚,NeurIPS 2019 Spotlight论文分享:不完备专家演示下的模仿学习
机器之心
8+阅读 · 2019年11月13日
NeurIPS 2019 论文线上分享 | 清华大学Spotlight:不完备专家演示下的模仿学习
机器之心
3+阅读 · 2019年11月8日
ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型
机器之心
8+阅读 · 2019年6月4日
【干货】Ian GoodFellow ICLR 2019演讲:对抗机器学习的进展与挑战
GAN生成式对抗网络
18+阅读 · 2019年5月15日
干货 | 强化学习中,如何从稀疏和不明确的反馈中学习泛化
AI科技评论
7+阅读 · 2019年3月1日
伯克利大学《深度强化学习》更新 | 第二讲:监督学习和模仿学习
AI科技评论
5+阅读 · 2019年1月10日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
CICC科普栏目|如何让机器人自主行动?伯克利利用神经网络动力学实现基于模型的强化学习
人工智能学家
4+阅读 · 2017年12月2日
Revisiting the Prepositional-Phrase Attachment Problem Using Explicit Commonsense Knowledge
Arxiv
0+阅读 · 2021年2月1日
Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints
Arxiv
0+阅读 · 2021年1月30日
PRIMAL2: Pathfinding via Reinforcement and Imitation Multi-Agent Learning -- Lifelong
Arxiv
0+阅读 · 2021年1月30日
Playing games with Tito: Designing hybrid museum experiences for critical play
Arxiv
0+阅读 · 2021年1月29日
On computable aspects of algebraic and definable closure
Arxiv
0+阅读 · 2021年1月28日
Participatory Funding Coordination: Model, Axioms and Rules
Arxiv
0+阅读 · 2021年1月27日
Improving Candidate Generation for Low-resource Cross-lingual Entity Linking
Arxiv
8+阅读 · 2020年3月3日
Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources
Arxiv
13+阅读 · 2019年11月14日
Multiagent Soft Q-Learning
Arxiv
11+阅读 · 2018年4月25日
A Study on Overfitting in Deep Reinforcement Learning
Arxiv
7+阅读 · 2018年4月20日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
模仿学习
NeurIPS 2020
对抗
南京大学
序列决策
NeurIPS
相关VIP内容
最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授,附下载
专知会员服务
40+阅读 · 2020年12月6日
【NeurIPS 2020】对图神经网络更切实的对抗式攻击
专知会员服务
23+阅读 · 2020年11月5日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【康奈尔】最新《强化学习基础》CS 6789课程
专知会员服务
67+阅读 · 2020年9月27日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架
专知会员服务
56+阅读 · 2020年5月26日
基于生成对抗网络的模仿学习综述, 苏州大学,计算机学报
专知会员服务
45+阅读 · 2020年2月1日
【报告推荐】模仿学习前沿进展,62页ppt,New Frontiers in Imitation Learning
专知会员服务
38+阅读 · 2019年11月13日
热门VIP内容
开通专知VIP会员 享更多权益服务
《人类与人工智能在规划和执行军用直升机领域人机编队协同任务中的合作:概念、要求、设计、验证》220页
《人类-自主性编队协同: 是否需要一个基于团队的指导性框架?》
驾驭人机协同作战团队
《有人无人协同作战:F-35 如何支持地面战斗部队 (GCE) 》
相关资讯
视频 | NeurIPS 2019分享:清华大学孙富春组提出全新模仿学习理论
机器之心
11+阅读 · 2019年11月20日
今晚,NeurIPS 2019 Spotlight论文分享:不完备专家演示下的模仿学习
机器之心
8+阅读 · 2019年11月13日
NeurIPS 2019 论文线上分享 | 清华大学Spotlight:不完备专家演示下的模仿学习
机器之心
3+阅读 · 2019年11月8日
ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型
机器之心
8+阅读 · 2019年6月4日
【干货】Ian GoodFellow ICLR 2019演讲:对抗机器学习的进展与挑战
GAN生成式对抗网络
18+阅读 · 2019年5月15日
干货 | 强化学习中,如何从稀疏和不明确的反馈中学习泛化
AI科技评论
7+阅读 · 2019年3月1日
伯克利大学《深度强化学习》更新 | 第二讲:监督学习和模仿学习
AI科技评论
5+阅读 · 2019年1月10日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
CICC科普栏目|如何让机器人自主行动?伯克利利用神经网络动力学实现基于模型的强化学习
人工智能学家
4+阅读 · 2017年12月2日
相关论文
Revisiting the Prepositional-Phrase Attachment Problem Using Explicit Commonsense Knowledge
Arxiv
0+阅读 · 2021年2月1日
Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints
Arxiv
0+阅读 · 2021年1月30日
PRIMAL2: Pathfinding via Reinforcement and Imitation Multi-Agent Learning -- Lifelong
Arxiv
0+阅读 · 2021年1月30日
Playing games with Tito: Designing hybrid museum experiences for critical play
Arxiv
0+阅读 · 2021年1月29日
On computable aspects of algebraic and definable closure
Arxiv
0+阅读 · 2021年1月28日
Participatory Funding Coordination: Model, Axioms and Rules
Arxiv
0+阅读 · 2021年1月27日
Improving Candidate Generation for Low-resource Cross-lingual Entity Linking
Arxiv
8+阅读 · 2020年3月3日
Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources
Arxiv
13+阅读 · 2019年11月14日
Multiagent Soft Q-Learning
Arxiv
11+阅读 · 2018年4月25日
A Study on Overfitting in Deep Reinforcement Learning
Arxiv
7+阅读 · 2018年4月20日
大家都在搜
MoE
洛克菲勒
大型语言模型
时间序列
空战战术
智能推荐
笛卡尔
大模型
无人艇
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top