【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf - 专知

会员服务 ·

0

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

2022 年 11 月 22 日 专知

强化学习(RL)能够在不需要学习领域动态模型的情况下求解领域。当与神经网络作为函数逼近器相结合时，RL系统可以解决复杂问题。然而，由于这些特性，验证和预测RL智能体的行为变得困难;一个博学的策略传达的是“做什么”，而不是“为什么”。本文专注于对深度强化学习进行解释，总结可用于下游分析的行为及其原因。具体来说，我们将重点放在从与环境的有限的已知交互集合中获得最终策略的设置上。我们将现有的解释方法分为两个方向:

1. 方法是解释单一动作行为还是策略级行为

2. 一种方法是否根据状态特征或过去的经验提供解释

在这种分类下，有四种类型的解释方法，它们能够回答关于智能体的不同问题。我们将介绍创建这些类型的解释的方法。此外，我们引入了一个统一的解释结构，它是所有四种类型的组合。这种结构能够获得关于智能体已经学习到什么以及它为什么这样做的进一步信息。

首先，我们介绍了CUSTARD，这是我们用状态特征解释单一动作行为的方法。CUSTARD的解释是策略的决策树表示。与生成这种决策树的现有方法不同，CUSTARD在训练后直接学习树而不近似策略，并且与现有的RL技术兼容。

然后我们介绍了APG-Gen，这是我们根据状态特征创建策略级行为解释的方法。APG-Gen在抽象状态上生成马尔可夫链，从而能够预测未来的行动和未来状态的各个方面。APG-Gen只查询智能体的Q值，对智能体的决策过程不做任何假设。

我们将这两种方法集成起来，生成统一解释树(UET)。UET是一棵从状态直接映射到操作和抽象状态的树，因此在状态特征方面统一了单个操作和策略级行为解释。

我们扩展了在深度神经网络中寻找重要训练点的现有工作。我们的方法，MRPS，根据过去的经验来解释单一动作行为。MRPS可以为点集找到重要值，并考虑特征的大小，从而产生更有意义的重要值。最后，我们找到UET中任何节点的过去经验集的重要值。此外，我们还介绍了计算UET节点的近似和精确影响的方法。由于UET既传达单一行为又传达策略级行为，因此这些重要性和影响值根据过去的经验解释了这两个级别的行为。我们的整体解决方案支持识别UET的部分，如果从智能体使用的集合中删除或添加特定的经验，则该部分将发生更改。

专知便捷查看

便捷下载，请关注专知人工智能公众号（点击上方关注）

点击“发消息” 回复 “RL132” 就可以获取《【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

3

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

专知会员服务

54+阅读 · 2023年1月4日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知会员服务

52+阅读 · 2022年11月24日

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

专知会员服务

59+阅读 · 2022年10月26日

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

专知会员服务

83+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

75+阅读 · 2022年9月6日

【新书】分布式强化学习，280页pdf

【新书】分布式强化学习，280页pdf

专知会员服务

160+阅读 · 2021年12月19日

【经典书】强化学习算法，98页pdf

专知会员服务

130+阅读 · 2021年8月25日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

46页pdf, 165篇文献 | 图的可解释性

46页pdf, 165篇文献 | 图的可解释性

图与推荐

3+阅读 · 2022年10月25日

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

专知

6+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持，235页pdf

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持，235页pdf

专知

9+阅读 · 2022年9月10日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【新书】分布式强化学习，280页pdf

【新书】分布式强化学习，280页pdf

专知

22+阅读 · 2021年12月19日

本体的解释诊断理论研究

国家自然科学基金

8+阅读 · 2014年12月31日

原子腔系统中的新奇量子态

国家自然科学基金

0+阅读 · 2013年12月31日

基于多视角学习的情感分析理论与方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

全基因组DNA甲基化研究中的统计学方法

国家自然科学基金

0+阅读 · 2012年12月31日

受限制策略下多臂Bandit过程的理论与应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

H-半变分不等式分布参数系统辨识与最优控制问题

国家自然科学基金

0+阅读 · 2012年12月31日

ECF转运蛋白的结构与转运机制

国家自然科学基金

0+阅读 · 2012年12月31日

面向理解的软件错误定位方法：状态转移概率推理建模

国家自然科学基金

2+阅读 · 2012年12月31日

概率并发理论

国家自然科学基金

1+阅读 · 2011年12月31日

基于多场耦合的平面铣削预变形理论及其补偿方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

Regression Models for Directional Data Based on Nonnegative Trigonometric Sums

Arxiv

0+阅读 · 2023年1月25日

Group fairness in dynamic refugee assignment

Arxiv

0+阅读 · 2023年1月25日

HIER: Metric Learning Beyond Class Labels via Hierarchical Regularization

Arxiv

0+阅读 · 2023年1月22日

Flexible non-parametric regression models for compositional data

Arxiv

0+阅读 · 2023年1月20日

Parametrization Cookbook: A set of Bijective Parametrizations for using Machine Learning methods in Statistical Inference

Arxiv

0+阅读 · 2023年1月19日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

A Survey on Causal Inference

Arxiv

112+阅读 · 2020年2月5日

Graph Signal Processing -- Part II: Processing and Analyzing Signals on Graphs

Graph Signal Processing -- Part II: Processing and Analyzing Signals on Graphs

Arxiv

16+阅读 · 2019年9月23日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

相关VIP内容

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

专知会员服务

54+阅读 · 2023年1月4日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知会员服务

52+阅读 · 2022年11月24日

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

专知会员服务

59+阅读 · 2022年10月26日

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

专知会员服务

83+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

75+阅读 · 2022年9月6日

【新书】分布式强化学习，280页pdf

【新书】分布式强化学习，280页pdf

专知会员服务

160+阅读 · 2021年12月19日

【经典书】强化学习算法，98页pdf

专知会员服务

130+阅读 · 2021年8月25日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

46页pdf, 165篇文献 | 图的可解释性

46页pdf, 165篇文献 | 图的可解释性

图与推荐

3+阅读 · 2022年10月25日

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

【牛津大学博士论文】论可解释性和不确定性在确保人工智能应用安全中的作用，217页pdf

专知

6+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持，235页pdf

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持，235页pdf

专知

9+阅读 · 2022年9月10日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知

2+阅读 · 2022年9月6日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【新书】分布式强化学习，280页pdf

【新书】分布式强化学习，280页pdf

专知

22+阅读 · 2021年12月19日

相关基金

本体的解释诊断理论研究

国家自然科学基金

8+阅读 · 2014年12月31日

原子腔系统中的新奇量子态

国家自然科学基金

0+阅读 · 2013年12月31日

基于多视角学习的情感分析理论与方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

全基因组DNA甲基化研究中的统计学方法

国家自然科学基金

0+阅读 · 2012年12月31日

受限制策略下多臂Bandit过程的理论与应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

H-半变分不等式分布参数系统辨识与最优控制问题

国家自然科学基金

0+阅读 · 2012年12月31日

ECF转运蛋白的结构与转运机制

国家自然科学基金

0+阅读 · 2012年12月31日

面向理解的软件错误定位方法：状态转移概率推理建模

国家自然科学基金

2+阅读 · 2012年12月31日

概率并发理论

国家自然科学基金

1+阅读 · 2011年12月31日

基于多场耦合的平面铣削预变形理论及其补偿方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Regression Models for Directional Data Based on Nonnegative Trigonometric Sums

Arxiv

0+阅读 · 2023年1月25日

Group fairness in dynamic refugee assignment

Arxiv

0+阅读 · 2023年1月25日

HIER: Metric Learning Beyond Class Labels via Hierarchical Regularization

Arxiv

0+阅读 · 2023年1月22日

Flexible non-parametric regression models for compositional data

Arxiv

0+阅读 · 2023年1月20日

Parametrization Cookbook: A set of Bijective Parametrizations for using Machine Learning methods in Statistical Inference

Arxiv

0+阅读 · 2023年1月19日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

A Survey on Causal Inference

Arxiv

112+阅读 · 2020年2月5日

Graph Signal Processing -- Part II: Processing and Analyzing Signals on Graphs

Graph Signal Processing -- Part II: Processing and Analyzing Signals on Graphs

Arxiv

16+阅读 · 2019年9月23日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

大家都在搜

久别重逢话双塔

无人机集群

软件无线电

国防科技创新

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员