任务分阶段：从演示中实现的自动课程学习 (Task Phasing: Automated Curriculum Learning from Demonstrations) - 专知论文

会员服务 ·

0

演示 · 课程学习 · 课程 · 稀疏 · 代理控制 ·

2023 年 3 月 28 日

Task Phasing: Automated Curriculum Learning from Demonstrations

翻译：任务分阶段：从演示中实现的自动课程学习

Vaibhav Bajaj,Guni Sharon,Peter Stone

from arxiv, 7 pages main paper, 7 figures, 4 pages appendix. Submitted to AAAI 2023 Conference

Applying reinforcement learning (RL) to sparse reward domains is notoriously challenging due to insufficient guiding signals. Common RL techniques for addressing such domains include (1) learning from demonstrations and (2) curriculum learning. While these two approaches have been studied in detail, they have rarely been considered together. This paper aims to do so by introducing a principled task phasing approach that uses demonstrations to automatically generate a curriculum sequence. Using inverse RL from (suboptimal) demonstrations we define a simple initial task. Our task phasing approach then provides a framework to gradually increase the complexity of the task all the way to the target task, while retuning the RL agent in each phasing iteration. Two approaches for phasing are considered: (1) gradually increasing the proportion of time steps an RL agent is in control, and (2) phasing out a guiding informative reward function. We present conditions that guarantee the convergence of these approaches to an optimal policy. Experimental results on 3 sparse reward domains demonstrate that our task phasing approaches outperform state-of-the-art approaches with respect to asymptotic performance.

翻译：将强化学习（RL）应用于稀疏奖励领域是非常具有挑战性的，因为缺乏充分的指导信号。应用于这些领域的常见RL技术包括（1）从演示中学习和（2）课程学习。尽管这两种方法已经得到了详细的研究，但很少同时考虑它们。本文旨在引入一种基于任务分阶段的方法，利用演示自动生成课程序列。使用来自（次优）演示的逆RL，我们定义一个简单的初始任务。然后，我们的任务分阶段方法提供了一个框架，逐步增加任务的复杂度，一直到目标任务，在每个分阶段迭代中对RL代理进行调整。考虑了两种分阶段方法：（1）逐渐增加RL代理控制时间步的比例，和（2）逐渐淘汰引导信息奖励函数。我们提出了保证这些方法收敛到最优策略的条件。在3个稀疏奖励领域上的实验结果表明，我们的任务分阶段方法相对于最先进的方法在渐近性能方面表现更好。

0

相关内容

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知会员服务

52+阅读 · 2022年8月13日

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

专知会员服务

37+阅读 · 2022年7月17日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2021】面向机器人的预训练模型-一种通用方法，伯克利Pieter Abbeel教授，附slides与视频

专知会员服务

29+阅读 · 2021年6月28日

首篇「课程学习（Curriculum Learning)」2021综述论文

首篇「课程学习（Curriculum Learning)」2021综述论文

专知会员服务

50+阅读 · 2021年1月31日

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

专知会员服务

111+阅读 · 2020年6月10日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知

2+阅读 · 2022年8月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

光子晶体柱快速制备新方法

国家自然科学基金

0+阅读 · 2014年12月31日

有向图的控制数研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

多组分纳米粒子的气-液界面自组装与光/电催化性能研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向在轨操控的多航天器期望模式运动分布式自主协同控制

国家自然科学基金

0+阅读 · 2011年12月31日

基于"非监督-监督-激励"集成学习模式的机器人行为自主学习系统研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

Arxiv

0+阅读 · 2023年5月18日

Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum

Arxiv

0+阅读 · 2023年5月17日

The Power of Learned Locally Linear Models for Nonlinear Policy Optimization

Arxiv

0+阅读 · 2023年5月16日

Curriculum Learning for Relative Overgeneralization

Arxiv

0+阅读 · 2023年5月15日

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning

Arxiv

5+阅读 · 2023年5月12日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

Curriculum Learning: A Survey

Arxiv

24+阅读 · 2021年1月25日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

74+阅读 · 2019年8月14日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

文章信息

相关主题

相关VIP内容

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知会员服务

52+阅读 · 2022年8月13日

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

专知会员服务

37+阅读 · 2022年7月17日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2021】面向机器人的预训练模型-一种通用方法，伯克利Pieter Abbeel教授，附slides与视频

专知会员服务

29+阅读 · 2021年6月28日

首篇「课程学习（Curriculum Learning)」2021综述论文

首篇「课程学习（Curriculum Learning)」2021综述论文

专知会员服务

50+阅读 · 2021年1月31日

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

专知会员服务

111+阅读 · 2020年6月10日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知

2+阅读 · 2022年8月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

相关论文

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

Arxiv

0+阅读 · 2023年5月18日

Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum

Arxiv

0+阅读 · 2023年5月17日

The Power of Learned Locally Linear Models for Nonlinear Policy Optimization

Arxiv

0+阅读 · 2023年5月16日

Curriculum Learning for Relative Overgeneralization

Arxiv

0+阅读 · 2023年5月15日

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning

Arxiv

5+阅读 · 2023年5月12日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

Curriculum Learning: A Survey

Arxiv

24+阅读 · 2021年1月25日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

74+阅读 · 2019年8月14日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

相关基金

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

光子晶体柱快速制备新方法

国家自然科学基金

0+阅读 · 2014年12月31日

有向图的控制数研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

多组分纳米粒子的气-液界面自组装与光/电催化性能研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向在轨操控的多航天器期望模式运动分布式自主协同控制

国家自然科学基金

0+阅读 · 2011年12月31日

基于"非监督-监督-激励"集成学习模式的机器人行为自主学习系统研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员