主题: Causal Confusion in Imitation Learning
简介: 行为克隆通过训练判别模型来预测观察到的专家行为,从而将策略学习转换为监督学习,这样的判别模型不是因果关系,因为训练过程并不了解专家与环境之间相互作用的因果结构。我们认为,由于模仿学习中的分布变化,忽略因果关系尤其有害。特别是,这会导致违反直觉的“因果识别错误”现象:访问更多信息可能会导致性能下降。我们调查了此问题的产生方式,并提出了一种解决方案,可通过有针对性的干预措施(环境互动或专家查询)来解决,以确定正确的因果模型。
嘉宾介绍: Dinesh Jayaraman,宾夕法尼亚大学的新任助理教授,还是Facebook AI Research的客座研究员,致力于视觉和机器人技术的交叉问题,在此之前,曾是加州大学伯克利分校伯克利人工智能研究实验室的博士后。
Pim de Haan,高通 AI的助理研究员,研究方向机器学习和数学几何的交叉。