主题: Causal Confusion in Imitation Learning

简介: 行为克隆通过训练判别模型来预测观察到的专家行为,从而将策略学习转换为监督学习,这样的判别模型不是因果关系,因为训练过程并不了解专家与环境之间相互作用的因果结构。我们认为,由于模仿学习中的分布变化,忽略因果关系尤其有害。特别是,这会导致违反直觉的“因果识别错误”现象:访问更多信息可能会导致性能下降。我们调查了此问题的产生方式,并提出了一种解决方案,可通过有针对性的干预措施(环境互动或专家查询)来解决,以确定正确的因果模型。

嘉宾介绍: Dinesh Jayaraman,宾夕法尼亚大学的新任助理教授,还是Facebook AI Research的客座研究员,致力于视觉和机器人技术的交叉问题,在此之前,曾是加州大学伯克利分校伯克利人工智能研究实验室的博士后。

Pim de Haan,高通 AI的助理研究员,研究方向机器学习和数学几何的交叉。

成为VIP会员查看完整内容
29

相关内容

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。
NeurIPS2019机器学习顶会接受论文列表!
GAN生成式对抗网络
17+阅读 · 2019年9月6日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
告别曲线拟合:因果推断和do-Calculus简介
论智
24+阅读 · 2018年5月26日
NSR观点| 学习因果关系和基于因果性的学习
知社学术圈
17+阅读 · 2018年1月7日
Arxiv
20+阅读 · 2019年11月24日
Arxiv
7+阅读 · 2019年5月31日
Arxiv
3+阅读 · 2018年10月11日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关VIP内容
相关论文
微信扫码咨询专知VIP会员