【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

主题： Causal Confusion in Imitation Learning

简介： 行为克隆通过训练判别模型来预测观察到的专家行为，从而将策略学习转换为监督学习，这样的判别模型不是因果关系，因为训练过程并不了解专家与环境之间相互作用的因果结构。我们认为，由于模仿学习中的分布变化，忽略因果关系尤其有害。特别是，这会导致违反直觉的“因果识别错误”现象：访问更多信息可能会导致性能下降。我们调查了此问题的产生方式，并提出了一种解决方案，可通过有针对性的干预措施（环境互动或专家查询）来解决，以确定正确的因果模型。

嘉宾介绍： Dinesh Jayaraman，宾夕法尼亚大学的新任助理教授，还是Facebook AI Research的客座研究员，致力于视觉和机器人技术的交叉问题，在此之前，曾是加州大学伯克利分校伯克利人工智能研究实验室的博士后。

Pim de Haan，高通 AI的助理研究员，研究方向机器学习和数学几何的交叉。

成为VIP会员查看完整内容

相关内容

模仿学习

关注 322

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

专知会员服务

52+阅读 · 2020年2月8日

专知会员服务

20+阅读 · 2019年12月9日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

175+阅读 · 2019年12月7日

【MLA 2019】学习因果关系与因果关系学习（Learning Causality and Learning with Causality: A Road to Intelligence）美国卡内基梅隆大学，张坤