Despite numerous successes in Deep Reinforcement Learning (DRL), the learned policies are not interpretable. Moreover, since DRL does not exploit symbolic relational representations, it has difficulties in coping with structural changes in its environment (such as increasing the number of objects). Relational Reinforcement Learning, on the other hand, inherits the relational representations from symbolic planning to learn reusable policies. However, it has so far been unable to scale up and exploit the power of deep neural networks. We propose Deep Explainable Relational Reinforcement Learning (DERRL), a framework that exploits the best of both -- neural and symbolic worlds. By resorting to a neuro-symbolic approach, DERRL combines relational representations and constraints from symbolic planning with deep learning to extract interpretable policies. These policies are in the form of logical rules that explain how each decision (or action) is arrived at. Through several experiments, in setups like the Countdown Game, Blocks World, Gridworld, and Traffic, we show that the policies learned by DERRL can be applied to different configurations and contexts, hence generalizing to environmental modifications.


翻译:尽管深度强化学习(DRL)在许多方面取得了成功,但学习到的策略并不可解释。此外,DRL没有利用符号关系表示的能力,因此在处理环境的结构变化(如增加物体数)方面有困难。另一方面,关系强化学习(RRL)继承了符号规划的关系表示,以学习可重用的策略。然而,迄今为止,它无法扩展和利用深度神经网络的能力。我们提出一种深度可解释关系强化学习(DERRL)框架,它充分利用了神经和符号世界的优点。通过使用神经符号学方法,DERRL将符号规划的关系表示和约束与深度学习相结合,以提取可解释的策略。这些策略采用逻辑规则的形式,解释了每个决策(或行动)的到达方式。在倒计时游戏、方块世界、Gridworld和交通等设置中进行了多项实验,结果表明,DERRL学习的策略可以应用于不同的配置和环境中,从而推广到环境修改。

0
下载
关闭预览

相关内容

符号学广义上是研究符号传意的人文科学,当中涵盖所有涉文字符、讯号符、密码、古文明记号、 手语的科学。
【2022新书】强化学习工业应用,408页pdf
专知会员服务
220+阅读 · 2022年2月3日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【2022新书】强化学习工业应用
专知
15+阅读 · 2022年2月3日
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
43+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
64+阅读 · 2022年4月13日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
相关资讯
【2022新书】强化学习工业应用
专知
15+阅读 · 2022年2月3日
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
43+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员