【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf - 专知

会员服务 ·

0

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

2022 年 10 月 15 日 专知

在现实生活中部署人工智能体的一个基本问题是它们快速适应环境的能力。传统的强化学习(RL)以两种方式与这一需求作斗争。首先，对不受约束的环境动态的迭代探索会产生大量信息不足的更新，从而导致适应速度缓慢。其次，最终的策略没有能力适应未来的观察结果，必须随着观察结果的发生缓慢地无限学习或完全重新训练。本文探讨了两种旨在解决这些问题的表述。元强化学习对整个任务分布的考虑使策略能够快速适应特定实例。通过强迫智能体特定地请求反馈，主动强化学习强制进行选择性的观察和更新。这两个公式都简化为贝叶斯-自适应设置，在其中保持对可能环境的概率信念。许多现有的解只提供了在实际环境中使用有限的渐近保证。我们开发了一种近似信念管理的变分方法，并通过广泛的消融实证支持其有效性。然后，我们考虑最近成功的规划方法，但发现和讨论它们在应用到所讨论的设置中的障碍。影响RL系统的数据需求和稳定性的一个重要因素是选择合适的超参数。我们开发了一种贝叶斯优化方法，利用训练过程的迭代结构，其经验性能超过现有基线。本文的最后一个贡献是提高高斯过程(GPs)的可扩展性和表达性。虽然我们没有直接使用现有的框架，但GPs已经被用于在密切相关的设置中建模概率信念。

https://ora.ox.ac.uk/objects/uuid:54963b90-2d7c-41a9-9bf3-065a3097c077

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“S165” 就可以获取《【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

12

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

专知会员服务

38+阅读 · 2022年11月12日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知会员服务

87+阅读 · 2022年10月10日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知会员服务

37+阅读 · 2022年9月16日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

70+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

147+阅读 · 2022年7月8日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

专知

3+阅读 · 2022年11月12日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

专知

3+阅读 · 2022年9月9日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知

6+阅读 · 2022年4月3日

基于混合蛙跳算法的三维重力密度异常快速反演

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

观测反馈能稳的控制系统的最佳结构参数

国家自然科学基金

0+阅读 · 2014年12月31日

基于多身份的加密系统关键问题研究及应用

国家自然科学基金

0+阅读 · 2013年12月31日

冗余频率源无缝使用策略研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂未建模系统的基于随机逼近的数据驱动控制研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于事件的强化学习及其在群机器人优化控制中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

现代电力系统中的线性多维柔性评价与分析

国家自然科学基金

0+阅读 · 2011年12月31日

基于网格资源与服务的决策支持方法与决策支持系统的研究

国家自然科学基金

0+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

On a reduced digit-by-digit component-by-component construction of lattice point sets

Arxiv

0+阅读 · 2022年11月22日

Learning Stochastic Dynamics with Statistics-Informed Neural Network

Arxiv

0+阅读 · 2022年11月21日

Understanding Boolean Function Learnability on Deep Neural Networks: PAC Learning Meets Neurosymbolic Models

Arxiv

0+阅读 · 2022年11月18日

A Survey of Deep Causal Model

Arxiv

45+阅读 · 2022年9月19日

Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability

Arxiv

30+阅读 · 2022年9月16日

Causality and Generalizability: Identifiability and Learning Methods

Arxiv

12+阅读 · 2021年10月4日

The Principles of Deep Learning Theory

Arxiv

66+阅读 · 2021年6月18日

已删除

Arxiv

33+阅读 · 2020年3月23日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Continual Lifelong Learning with Neural Networks: A Review

Arxiv

14+阅读 · 2019年2月11日

VIP会员

相关主题

牛津大学 (University of Oxford)

相关VIP内容

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

专知会员服务

38+阅读 · 2022年11月12日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

84+阅读 · 2022年10月19日

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

【牛津大学博士论文】基于物理信息神经网络的数据高效学习，210页pdf

专知会员服务

87+阅读 · 2022年10月10日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知会员服务

37+阅读 · 2022年9月16日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

70+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

147+阅读 · 2022年7月8日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

相关资讯

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

【牛津大学博士论文】识别和开发可靠的深度学习结构，262页pdf

专知

3+阅读 · 2022年11月12日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

【斯坦福博士论文】机器学习系统高效部署的理论和算法，155页pdf

专知

3+阅读 · 2022年9月9日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知

6+阅读 · 2022年4月3日

相关基金

基于混合蛙跳算法的三维重力密度异常快速反演

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

观测反馈能稳的控制系统的最佳结构参数

国家自然科学基金

0+阅读 · 2014年12月31日

基于多身份的加密系统关键问题研究及应用

国家自然科学基金

0+阅读 · 2013年12月31日

冗余频率源无缝使用策略研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂未建模系统的基于随机逼近的数据驱动控制研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于事件的强化学习及其在群机器人优化控制中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

现代电力系统中的线性多维柔性评价与分析

国家自然科学基金

0+阅读 · 2011年12月31日

基于网格资源与服务的决策支持方法与决策支持系统的研究

国家自然科学基金

0+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

相关论文

On a reduced digit-by-digit component-by-component construction of lattice point sets

Arxiv

0+阅读 · 2022年11月22日

Learning Stochastic Dynamics with Statistics-Informed Neural Network

Arxiv

0+阅读 · 2022年11月21日

Understanding Boolean Function Learnability on Deep Neural Networks: PAC Learning Meets Neurosymbolic Models

Arxiv

0+阅读 · 2022年11月18日

A Survey of Deep Causal Model

Arxiv

45+阅读 · 2022年9月19日

Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability

Arxiv

30+阅读 · 2022年9月16日

Causality and Generalizability: Identifiability and Learning Methods

Arxiv

12+阅读 · 2021年10月4日

The Principles of Deep Learning Theory

Arxiv

66+阅读 · 2021年6月18日

已删除

Arxiv

33+阅读 · 2020年3月23日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Continual Lifelong Learning with Neural Networks: A Review

Arxiv

14+阅读 · 2019年2月11日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员