【牛津大学博士论文】元强化学习的快速自适应，217页pdf - 专知

会员服务 ·

0

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

2022 年 9 月 19 日 专知

强化学习(Reinforcement Learning, RL)是一种训练人工智能体自主与世界互动的方法 。然而，在实践中，强化学习仍然有局限性，禁止在许多现实世界环境中部署强化学习智能体。这是因为RL需要很长时间，通常需要人工监督，并产生在不熟悉的情况下可能表现出出乎意料的特殊智能体。本文的目标是使RL智能体在现实世界中部署时更加灵活、稳健和安全。我们开发具有快速适应能力的智能体，即能够有效学习新任务的智能体。

为此，我们使用元强化学习(Meta- RL)，在这里我们不仅教智能体自主行动，而且教智能体自主学习 。基于快速适应可以分为“任务推理”(理解任务)和“任务求解”(解决任务)的直觉，我们提出了四种新的元RL方法。我们假设这种分离可以简化优化，从而提高性能，并且更适合下游任务。为了实现这一点，我们提出了一种基于上下文的方法，在这种方法中，智能体以表示其对任务的当前知识的上下文为条件。然后，智能体可以使用这一点来决定是进一步了解任务，还是尝试解决它。

在第5章中，我们使用确定性上下文，并确定这确实可以提高性能并充分捕获任务。在接下来的章节中，我们将在上下文中引入贝叶斯推理，以实现在任务不确定性下的决策。通过结合元强化学习、基于上下文的学习和近似变分推理，开发了为单智能体设置(第6章)和多智能体设置(第7章)计算近似贝叶斯最优智能体的方法。最后，第8章解决了稀疏奖励的元学习的挑战，这是许多现实世界应用的重要设置。观察到，如果奖励稀疏，现有的元强化学习方法可能会完全失败，并提出一种方法来克服这一问题，即鼓励智能体在元训练期间进行探索。我们以对当前发展背景下的工作的反思和对开放问题的讨论来结束论文。综上所述，本文的研究成果极大地推动了基于Meta-RL的快速适应领域的发展。本文开发的智能体可以比以前的任何方法更快地适应各种任务，并且可以为比以前可能的更复杂的任务分布计算近似贝叶斯最优策略。我们希望这有助于推动Meta-RL研究的发展，并从长远来看，利用RL解决重要的现实世界挑战。

《元强化学习》最新，70页ppt

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“M217” 就可以获取《【牛津大学博士论文】元强化学习的快速自适应，217页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

29

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

44+阅读 · 2022年10月15日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知会员服务

24+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

49+阅读 · 2022年6月23日

【CMU博士论文】通过记忆的元强化学习

【CMU博士论文】通过记忆的元强化学习

专知会员服务

57+阅读 · 2021年10月16日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

专知

5+阅读 · 2022年9月28日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知

3+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

零辅助数据MIMO雷达自适应检测问题研究

国家自然科学基金

7+阅读 · 2015年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

Z干扰信道的容量问题

国家自然科学基金

0+阅读 · 2012年12月31日

基于学习人类策略的动态稳定系统控制器切换方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于全并行外信息交换的高速Turbo译码算法及其高效VLSI实现方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于信息的自适应构造逼近

国家自然科学基金

0+阅读 · 2011年12月31日

非线性极大极小问题的有效算法及其应用研究

国家自然科学基金

1+阅读 · 2011年12月31日

无限元方法中转移矩阵的计算

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction

Arxiv

0+阅读 · 2022年11月22日

A Reinforcement Learning Approach to Optimize Available Network Bandwidth Utilization

Arxiv

0+阅读 · 2022年11月22日

Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission Scheduling

Arxiv

0+阅读 · 2022年11月20日

Active Learning for Domain Adaptation: An Energy-based Approach

Arxiv

13+阅读 · 2021年12月2日

Knowledge Embedding Based Graph Convolutional Network

Knowledge Embedding Based Graph Convolutional Network

Arxiv

24+阅读 · 2021年4月23日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

Deep Reinforcement Learning: An Overview

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

VIP会员

相关主题

元强化学习

牛津大学 (University of Oxford)

相关VIP内容

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知会员服务

44+阅读 · 2022年10月15日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知会员服务

24+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

49+阅读 · 2022年6月23日

【CMU博士论文】通过记忆的元强化学习

【CMU博士论文】通过记忆的元强化学习

专知会员服务

57+阅读 · 2021年10月16日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

专知

5+阅读 · 2022年9月28日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知

3+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

零辅助数据MIMO雷达自适应检测问题研究

国家自然科学基金

7+阅读 · 2015年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

Z干扰信道的容量问题

国家自然科学基金

0+阅读 · 2012年12月31日

基于学习人类策略的动态稳定系统控制器切换方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于全并行外信息交换的高速Turbo译码算法及其高效VLSI实现方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于信息的自适应构造逼近

国家自然科学基金

0+阅读 · 2011年12月31日

非线性极大极小问题的有效算法及其应用研究

国家自然科学基金

1+阅读 · 2011年12月31日

无限元方法中转移矩阵的计算

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction

Arxiv

0+阅读 · 2022年11月22日

A Reinforcement Learning Approach to Optimize Available Network Bandwidth Utilization

Arxiv

0+阅读 · 2022年11月22日

Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission Scheduling

Arxiv

0+阅读 · 2022年11月20日

Active Learning for Domain Adaptation: An Energy-based Approach

Arxiv

13+阅读 · 2021年12月2日

Knowledge Embedding Based Graph Convolutional Network

Knowledge Embedding Based Graph Convolutional Network

Arxiv

24+阅读 · 2021年4月23日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

Deep Reinforcement Learning: An Overview

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员