【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf - 专知

会员服务 ·

0

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

2022 年 9 月 14 日 专知

利用深度神经网络进行机器学习的最新进展，在从大型数据集学习方面取得了重大成功。然而，这些成功主要集中在计算机视觉和自然语言处理方面，而在序列决策问题方面的进展仍然有限。强化学习(RL)方法就是为了解决这些问题而设计的，但相比之下，它们很难扩展到许多现实世界的应用中，因为它们依赖于成本高昂且可能不安全的在线试错，而且需要从头开始逐个学习每个技能的低效过程。本文将介绍设计RL智能体的工作，这些智能体直接从离线数据中训练，能够掌握多种技能，以解决上述挑战。

在本文的第一部分中，我们首先介绍了一种算法，从离线数据集中学习高性能策略，并通过使用学习到的动力学模型生成的推出来扩展离线数据，提高离线强化学习智能体的泛化能力。然后，我们将该方法扩展到高维观测空间，如图像，并表明该方法使现实世界的机器人系统能够执行操作任务。在论文的第二部分，为了避免在之前的强化学习工作中从头开始学习每个任务的问题，同时保持离线学习的好处，讨论了如何使强化学习智能体通过跨任务共享数据从不同的离线数据中学习各种任务。此外，我们表明，共享数据需要标记来自其他任务的数据的奖励，这依赖于繁重的奖励工程，也是劳动密集型的。为了解决这些问题，我们描述了如何有效地利用离线RL中的各种未标记数据，绕过奖励标记的挑战。最后，我们列出了未来的研究方向，如利用异构无标签离线数据集的有效预训练方案、离线预训练后的在线微调以及离线RL的离线超参数选择。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“R17” 就可以获取《【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

4

相关内容

多功能

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

48+阅读 · 2022年9月14日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知会员服务

126+阅读 · 2022年9月11日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

70+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【干货书】强化学习Python真实数据与实例应用，110页pdf

【干货书】强化学习Python真实数据与实例应用，110页pdf

专知

9+阅读 · 2022年10月13日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

多糖基长循环脂质体的构建与载体的多功能集成

国家自然科学基金

0+阅读 · 2012年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

数据驱动的双足机器人步态自学习控制方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

ModelDiff: A Framework for Comparing Learning Algorithms

Arxiv

0+阅读 · 2022年11月22日

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines

Arxiv

0+阅读 · 2022年11月20日

Temporal Graph Networks for Deep Learning on Dynamic Graphs

Arxiv

37+阅读 · 2020年10月9日

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

20+阅读 · 2020年3月26日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

17+阅读 · 2018年6月27日

VIP会员

相关主题

相关VIP内容

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

48+阅读 · 2022年9月14日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知会员服务

126+阅读 · 2022年9月11日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

70+阅读 · 2022年8月29日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

人工智能与未来指挥

【伯克利博士论文】将大语言模型绑定至虚拟人格：实现人类行为模拟

稀疏自编码器综述：解释大语言模型的内部机制

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

12+阅读 · 2022年10月15日

【干货书】强化学习Python真实数据与实例应用，110页pdf

【干货书】强化学习Python真实数据与实例应用，110页pdf

专知

9+阅读 · 2022年10月13日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

相关基金

多糖基长循环脂质体的构建与载体的多功能集成

国家自然科学基金

0+阅读 · 2012年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

数据驱动的双足机器人步态自学习控制方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

ModelDiff: A Framework for Comparing Learning Algorithms

Arxiv

0+阅读 · 2022年11月22日

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines

Arxiv

0+阅读 · 2022年11月20日

Temporal Graph Networks for Deep Learning on Dynamic Graphs

Arxiv

37+阅读 · 2020年10月9日

A Collective Learning Framework to Boost GNN Expressiveness

A Collective Learning Framework to Boost GNN Expressiveness

Arxiv

20+阅读 · 2020年3月26日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

17+阅读 · 2018年6月27日

大家都在搜

蓝牙安全攻防

大型语言模型

滴滴司机调度系统实践

微信扫码咨询专知VIP会员