【CMU博士论文】强化学习可解释:统一状态和策略级解释,132页pdf

2022 年 11 月 22 日 专知


强化学习(RL)能够在不需要学习领域动态模型的情况下求解领域。当与神经网络作为函数逼近器相结合时,RL系统可以解决复杂问题。然而,由于这些特性,验证和预测RL智能体的行为变得困难;一个博学的策略传达的是“做什么”,而不是“为什么”。本文专注于对深度强化学习进行解释,总结可用于下游分析的行为及其原因。具体来说,我们将重点放在从与环境的有限的已知交互集合中获得最终策略的设置上。我们将现有的解释方法分为两个方向:

1. 方法是解释单一动作行为还是策略级行为

2. 一种方法是否根据状态特征或过去的经验提供解释

在这种分类下,有四种类型的解释方法,它们能够回答关于智能体的不同问题。我们将介绍创建这些类型的解释的方法。此外,我们引入了一个统一的解释结构,它是所有四种类型的组合。这种结构能够获得关于智能体已经学习到什么以及它为什么这样做的进一步信息。

首先,我们介绍了CUSTARD,这是我们用状态特征解释单一动作行为的方法。CUSTARD的解释是策略的决策树表示。与生成这种决策树的现有方法不同,CUSTARD在训练后直接学习树而不近似策略,并且与现有的RL技术兼容。

然后我们介绍了APG-Gen,这是我们根据状态特征创建策略级行为解释的方法。APG-Gen在抽象状态上生成马尔可夫链,从而能够预测未来的行动和未来状态的各个方面。APG-Gen只查询智能体的Q值,对智能体的决策过程不做任何假设。

我们将这两种方法集成起来,生成统一解释树(UET)。UET是一棵从状态直接映射到操作和抽象状态的树,因此在状态特征方面统一了单个操作和策略级行为解释。

我们扩展了在深度神经网络中寻找重要训练点的现有工作。我们的方法,MRPS,根据过去的经验来解释单一动作行为。MRPS可以为点集找到重要值,并考虑特征的大小,从而产生更有意义的重要值。最后,我们找到UET中任何节点的过去经验集的重要值。此外,我们还介绍了计算UET节点的近似和精确影响的方法。由于UET既传达单一行为又传达策略级行为,因此这些重要性和影响值根据过去的经验解释了这两个级别的行为。我们的整体解决方案支持识别UET的部分,如果从智能体使用的集合中删除或添加特定的经验,则该部分将发生更改。


专知便捷查看

便捷下载,请关注专知人工智能公众号(点击上方关注)

  • 点击“发消息” 回复 RL132” 就可以获取《【CMU博士论文】强化学习可解释:统一状态和策略级解释,132页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
3

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU博士论文】黑盒和多目标优化策略,151页pdf
专知会员服务
51+阅读 · 2022年11月24日
【新书】分布式强化学习,280页pdf
专知会员服务
151+阅读 · 2021年12月19日
专知会员服务
125+阅读 · 2021年8月25日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
46页pdf, 165篇文献 | 图的可解释性
图与推荐
3+阅读 · 2022年10月25日
【MIT博士论文】数据高效强化学习,176页pdf
【新书】分布式强化学习,280页pdf
专知
21+阅读 · 2021年12月19日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年1月25日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员