Despite advances in Reinforcement Learning, many sequential decision making tasks remain prohibitively expensive and impractical to learn. Recently, approaches that automatically generate reward functions from logical task specifications have been proposed to mitigate this issue; however, they scale poorly on long-horizon tasks (i.e., tasks where the agent needs to perform a series of correct actions to reach the goal state, considering future transitions while choosing an action). Employing a curriculum (a sequence of increasingly complex tasks) further improves the learning speed of the agent by sequencing intermediate tasks suited to the learning capacity of the agent. However, generating curricula from the logical specification still remains an unsolved problem. To this end, we propose AGCL, Automaton-guided Curriculum Learning, a novel method for automatically generating curricula for the target task in the form of Directed Acyclic Graphs (DAGs). AGCL encodes the specification in the form of a deterministic finite automaton (DFA), and then uses the DFA along with the Object-Oriented MDP (OOMDP) representation to generate a curriculum as a DAG, where the vertices correspond to tasks, and edges correspond to the direction of knowledge transfer. Experiments in gridworld and physics-based simulated robotics domains show that the curricula produced by AGCL achieve improved time-to-threshold performance on a complex sequential decision-making problem relative to state-of-the-art curriculum learning (e.g, teacher-student, self-play) and automaton-guided reinforcement learning baselines (e.g, Q-Learning for Reward Machines). Further, we demonstrate that AGCL performs well even in the presence of noise in the task's OOMDP description, and also when distractor objects are present that are not modeled in the logical specification of the tasks' objectives.


翻译:尽管增强学习方面取得了进展,但许多顺序决策任务仍然难以利用这些方法进行有效学习。最近,提出了从逻辑任务规范自动生成奖励函数的方法来解决这个问题;然而,它们在长时程任务(即智能体需要执行一系列正确的操作才能达到目标状态,同时在选择行动时考虑未来的转移)上的扩展问题仍然很大。通过设计课程(即一系列越来越复杂的任务),可以进一步提高智能体的学习速度,通过为其选择适合学习能力的中间任务序列化的方法来实现。然而,从逻辑规范生成课程仍然是一个尚未解决的问题。为此,我们提出了AGCL——自动机引导下的课程学习,这是一种新的方法,可以自动生成以有向无环图(DAGs)形式呈现的针对目标任务的课程设计。AGCL使用确定性有限自动机(DFA)将规范编码为对象导向马尔可夫决策过程(OOMDP)表示,然后使用DFA以及OOMDP表示形式生成DAG形式的课程设计,其中节点对应于任务,边对应于知识传递的方向。在gridworld和基于物理的模拟机器人领域的实验中,我们发现,AGCL生成的课程相对于当前最先进的课程学习方法(如教师-学生,自我对弈)和自动机引导下的强化学习基线方法(如针对奖励机器的Q-Learning)在复杂的顺序决策问题上可以获得更好的time-to-threshold性能。此外,我们表明AGCL即使在任务的OOMDP描述中存在噪声以及存在未在任务目标的逻辑规范中建模的干扰物体时,也能够表现得很好。

0
下载
关闭预览

相关内容

课程是指学校学生所应学习的学科总和及其进程与安排。课程是对教育的目标、教学内容、教学活动方式的规划和设计,是教学计划、教学大纲等诸多方面实施过程的总和。广义的课程是指学校为实现培养目标而选择的教育内容及其进程的总和,它包括学校老师所教授的各门学科和有目的、有计划的教育活动。狭义的课程是指某一门学科。 专知上对国内外最新AI+X的课程进行了收集与索引,涵盖斯坦福大学、CMU、MIT、清华、北大等名校开放课程。
JCIM丨DRlinker:深度强化学习优化片段连接设计
专知会员服务
6+阅读 · 2022年12月9日
斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
124+阅读 · 2022年2月27日
《行为与认知机器人学》,241页pdf
专知会员服务
53+阅读 · 2021年4月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月25日
Arxiv
27+阅读 · 2023年2月10日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员