Counterfactual explanations, which deal with "why not?" scenarios, can provide insightful explanations to an AI agent's behavior. In this work, we focus on generating counterfactual explanations for deep reinforcement learning (RL) agents which operate in visual input environments like Atari. We introduce counterfactual state explanations, a novel example-based approach to counterfactual explanations based on generative deep learning. Specifically, a counterfactual state illustrates what minimal change is needed to an Atari game image such that the agent chooses a different action. We also evaluate the effectiveness of counterfactual states on human participants who are not machine learning experts. Our first user study investigates if humans can discern if the counterfactual state explanations are produced by the actual game or produced by a generative deep learning approach. Our second user study investigates if counterfactual state explanations can help non-expert participants identify a flawed agent; we compare against a baseline approach based on a nearest neighbor explanation which uses images from the actual game. Our results indicate that counterfactual state explanations have sufficient fidelity to the actual game images to enable non-experts to more effectively identify a flawed RL agent compared to the nearest neighbor baseline and to having no explanation at all.


翻译:反事实解释涉及“ 为何不? ” 假想, 可以为AI 代理商的行为提供深刻的解释。 在这项工作中, 我们侧重于为在 Atari 这样的视觉输入环境中运作的深强化学习( RL) 代理商提供反事实解释。 我们引入反事实状态解释, 这是一种基于基因深思熟虑的新颖的以实例为基础的反事实解释方法。 具体地说, 反事实状态说明对Atari 游戏图像需要什么样的最小改变, 使代理商选择不同的行动。 我们还评估了反事实状态解释对不是机器学习专家的人类参与者的有效性。 我们的第一次用户研究调查人类是否能够辨别实际游戏产生的反事实状态解释, 或由基因深思熟虑的方法产生的反事实解释。 我们的第二次用户研究调查, 如果反事实解释有助于非专家确定一个有缺陷的代理商; 我们比较了以最近的邻居解释为基础的基线方法, 后者使用实际游戏的图像。 我们的结果表明, 反事实状态解释足以使非专家能够更有效地识别有缺陷的 RL 代理商, 在近邻基线上没有更好的解释。

0
下载
关闭预览

相关内容

最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
67+阅读 · 2020年10月24日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
127+阅读 · 2020年5月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
196+阅读 · 2019年9月30日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
8+阅读 · 2018年7月12日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关VIP内容
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
67+阅读 · 2020年10月24日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
127+阅读 · 2020年5月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
196+阅读 · 2019年9月30日
Top
微信扫码咨询专知VIP会员