【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf - 专知

会员服务 ·

0

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

2022 年 10 月 6 日 专知

在本文中，我们的目标是改进深度强化学习中的泛化。对任何类型的学习来说，泛化都是一项基本挑战，它决定了如何将已获得的知识转移到新的、以前从未见过的情况中。本文专注于强化学习，这是一个描述人工智能体如何学习与环境交互以实现目标的框架。近年来，利用神经网络表示智能体取得了显著的成功，并极大地扩展了其可能的应用范围。本文的目标是通过允许这些智能体更快地学习，学习更好的解决方案，并对以前未见过的情况做出鲁棒的反应，从而提高它们的性能。在这个探索中，我们探索了一系列不同的方法和途径。我们专注于将额外的结构，也称为归纳偏差，纳入主体。专注于特定的，但广泛适用的问题领域，我们可以开发专门的架构，从而大大提高性能。在第3章中，我们关注的是部分可观察环境，在这种环境中，智能体每时每刻都不能完全访问所有与任务相关的信息。在第4章中，我们将注意力转向多任务和迁移学习，并设计了一种新的训练方法，允许训练分层结构的智能体。我们的方法优化了单个解决方案的可重用性，大大提高了传输设置中的性能。

在本文的第二部分中，我们将注意力转向正则化，这是另一种形式的归纳偏差，作为提高深度智能体泛化的方法。在第五章中，我们首先探讨了强化学习(RL)中的随机正则化。虽然这些技术已被证明在监督学习中非常有效，但我们强调并克服了将它们直接应用到在线RL算法中的困难，这是RL中最强大和应用最广泛的学习类型之一。在第6章中，我们通过探索训练数据中的瞬态非平稳性如何干扰神经网络的随机梯度训练，并使其偏向较差的解，在更基本的水平上研究了深度rl中的泛化。许多先进的RL算法将这些类型的非平稳性引入到训练中，甚至在平稳环境中，通过使用持续改进的数据收集策略。我们提出了一个新的框架，以减少经过训练的策略所经历的非平稳性，从而允许改进的泛化。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“D168” 就可以获取《【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

10

相关内容

归纳偏差

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

106+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

80+阅读 · 2021年5月23日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

专知

5+阅读 · 2022年9月28日

基于模型的安全关键的信息物理融合系统的设计方法中的软件综合

国家自然科学基金

1+阅读 · 2014年12月31日

未标记数据流中的迁移学习关键问题研究

国家自然科学基金

5+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于智能模糊动态特征模型的高超声速飞行器先进控制

国家自然科学基金

1+阅读 · 2010年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

CBEAF-Adapting: Enhanced Continual Pretraining for Building Chinese Biomedical Language Model

Arxiv

0+阅读 · 2022年11月21日

A conjecture on optimal quaternary linear codes with one-dimensional Hermitian hull

Arxiv

0+阅读 · 2022年11月21日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning

Arxiv

36+阅读 · 2020年9月3日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

VIP会员

相关主题

深度强化学习

相关VIP内容

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

106+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

80+阅读 · 2021年5月23日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《军事医疗系统中实施人工智能的障碍》40页

《当代武装冲突中无人机的战略部署：俄乌战争与以色列-加沙冲突的比较研究》

面向作战人员负责任地寻求生成式人工智能

《为一场持久大规模战争打造空军》

相关资讯

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知

8+阅读 · 2022年10月10日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

【牛津大学博士论文】深度迁移学习贝叶斯推断，157页pdf

专知

5+阅读 · 2022年9月28日

相关基金

基于模型的安全关键的信息物理融合系统的设计方法中的软件综合

国家自然科学基金

1+阅读 · 2014年12月31日

未标记数据流中的迁移学习关键问题研究

国家自然科学基金

5+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于智能模糊动态特征模型的高超声速飞行器先进控制

国家自然科学基金

1+阅读 · 2010年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

CBEAF-Adapting: Enhanced Continual Pretraining for Building Chinese Biomedical Language Model

Arxiv

0+阅读 · 2022年11月21日

A conjecture on optimal quaternary linear codes with one-dimensional Hermitian hull

Arxiv

0+阅读 · 2022年11月21日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning

Arxiv

36+阅读 · 2020年9月3日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

大家都在搜

分布式事务

MIT博士论文

蓝牙安全攻防

从传统方法到深度学习—— bilateral filter 到 HDRNet的演进

微信扫码咨询专知VIP会员