【牛津大学博士论文】元强化学习的快速自适应,217页pdf

2022 年 9 月 19 日 专知



强化学习(Reinforcement Learning, RL)是一种训练人工智能体自主与世界互动的方法 。然而,在实践中,强化学习仍然有局限性,禁止在许多现实世界环境中部署强化学习智能体。这是因为RL需要很长时间,通常需要人工监督,并产生在不熟悉的情况下可能表现出出乎意料的特殊智能体。本文的目标是使RL智能体在现实世界中部署时更加灵活、稳健和安全。我们开发具有快速适应能力的智能体,即能够有效学习新任务的智能体。
为此,我们使用元强化学习(Meta- RL),在这里我们不仅教智能体自主行动,而且教智能体自主学习 。基于快速适应可以分为“任务推理”(理解任务)和“任务求解”(解决任务)的直觉,我们提出了四种新的元RL方法。我们假设这种分离可以简化优化,从而提高性能,并且更适合下游任务。为了实现这一点,我们提出了一种基于上下文的方法,在这种方法中,智能体以表示其对任务的当前知识的上下文为条件。然后,智能体可以使用这一点来决定是进一步了解任务,还是尝试解决它。
在第5章中,我们使用确定性上下文,并确定这确实可以提高性能并充分捕获任务。在接下来的章节中,我们将在上下文中引入贝叶斯推理,以实现在任务不确定性下的决策。通过结合元强化学习、基于上下文的学习和近似变分推理,开发了为单智能体设置(第6章)和多智能体设置(第7章)计算近似贝叶斯最优智能体的方法。最后,第8章解决了稀疏奖励的元学习的挑战,这是许多现实世界应用的重要设置。观察到,如果奖励稀疏,现有的元强化学习方法可能会完全失败,并提出一种方法来克服这一问题,即鼓励智能体在元训练期间进行探索。我们以对当前发展背景下的工作的反思和对开放问题的讨论来结束论文。综上所述,本文的研究成果极大地推动了基于Meta-RL的快速适应领域的发展。本文开发的智能体可以比以前的任何方法更快地适应各种任务,并且可以为比以前可能的更复杂的任务分布计算近似贝叶斯最优策略。我们希望这有助于推动Meta-RL研究的发展,并从长远来看,利用RL解决重要的现实世界挑战。
《元强化学习》最新,70页ppt


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“M217” 就可以获取【牛津大学博士论文】元强化学习的快速自适应,217页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
26

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
81+阅读 · 2022年10月19日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
22+阅读 · 2022年10月8日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
85+阅读 · 2022年7月11日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
46+阅读 · 2022年6月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
【NeurIPS2022】分布式自适应元强化学习
专知
3+阅读 · 2022年10月8日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
Knowledge Embedding Based Graph Convolutional Network
Arxiv
24+阅读 · 2021年4月23日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
15+阅读 · 2018年4月5日
VIP会员
相关VIP内容
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
81+阅读 · 2022年10月19日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
22+阅读 · 2022年10月8日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
85+阅读 · 2022年7月11日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
46+阅读 · 2022年6月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员