【NeurIPS2022】分布式自适应元强化学习 - 专知

会员服务 ·

0

【NeurIPS2022】分布式自适应元强化学习

2022 年 10 月 8 日 专知

元强化学习算法提供了一种数据驱动的方法来获得快速适应许多具有不同奖励或动态功能的任务的策略。然而，学习到的元策略通常只在它们被训练的确切任务分布上有效，并在测试时间奖励的分布变化或过渡动态的存在下很困难。本文为元强化学习算法开发了一个框架，能够在任务空间的测试时分布变化下表现适当。我们的框架以一种适应分布鲁棒性的方法为中心，它训练一组元策略对不同级别的分布转移具有鲁棒性。当在可能发生变化的任务测试时分布上进行评估时，这使我们能够选择具有最适当鲁棒性水平的元策略，并使用它来执行快速自适应。我们正式地展示了我们的框架如何允许改进分布位移下的遗憾，并实证地展示了它在广泛分布位移下的模拟机器人问题上的有效性。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DAMR” 就可以获取《【NeurIPS2022】分布式自适应元强化学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

3

相关内容

元强化学习

元强化学习

Meta RL（Meta Reinforcement Learning）是Meta Learning应用到Reinforcement Learning的一个研究方向，核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够学的更快，学的更好，能够自适应新环境！

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知会员服务

42+阅读 · 2022年10月25日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

24+阅读 · 2022年9月22日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知会员服务

24+阅读 · 2021年11月26日

【NeurIPS2021】序一致因果图的多任务学习

【NeurIPS2021】序一致因果图的多任务学习

专知会员服务

20+阅读 · 2021年11月7日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【NeurIPS2022】具有自适应读出的图神经网络

【NeurIPS2022】具有自适应读出的图神经网络

专知

1+阅读 · 2022年11月11日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【NeurIPS2022】通过模型转换的可解释强化学习

【NeurIPS2022】通过模型转换的可解释强化学习

专知

1+阅读 · 2022年10月4日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知

2+阅读 · 2022年9月22日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

《元强化学习》最新，70页ppt

《元强化学习》最新，70页ppt

专知

2+阅读 · 2022年9月16日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知

3+阅读 · 2022年8月29日

【CVPR 2022】基于可迁移GNN的自适应轨迹预测

【CVPR 2022】基于可迁移GNN的自适应轨迹预测

专知

4+阅读 · 2022年3月11日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知

1+阅读 · 2021年11月26日

【NeurIPS2021】任务导向的无监督域自适应

【NeurIPS2021】任务导向的无监督域自适应

专知

1+阅读 · 2021年11月20日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布异构环境下基于多Agent的复杂供应链网络计算实验方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于自适应-脉冲协议的不确定性多智能体系统的一致性研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

两相状态下管内机器人的自适应移动机理与控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定多智能体系统一致性的分布式自适应控制

国家自然科学基金

7+阅读 · 2012年12月31日

基于GIS的森林资源调查空间平衡抽样理论与方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

HyperTuning: Toward Adapting Large Language Models without Back-propagation

Arxiv

0+阅读 · 2022年11月22日

Unsupervised Learning of Temporal Abstractions with Slot-based Transformers

Arxiv

0+阅读 · 2022年11月22日

Eliciting and Understanding Cross-Task Skills with Task-Level Mixture-of-Experts

Arxiv

0+阅读 · 2022年11月22日

Hierarchical Graph Structures for Congestion and ETA Prediction

Arxiv

0+阅读 · 2022年11月21日

A Generalized EigenGame with Extensions to Multiview Representation Learning

Arxiv

0+阅读 · 2022年11月21日

What's the Harm? Sharp Bounds on the Fraction Negatively Affected by Treatment

Arxiv

0+阅读 · 2022年11月21日

Entity-Assisted Language Models for Identifying Check-worthy Sentences

Arxiv

0+阅读 · 2022年11月19日

Scaling Native Language Identification with Transformer Adapters

Arxiv

0+阅读 · 2022年11月18日

Generative Models as a Data Source for Multiview Representation Learning

Arxiv

16+阅读 · 2021年6月9日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

VIP会员

相关主题

元强化学习

强化学习算法

相关VIP内容

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知会员服务

42+阅读 · 2022年10月25日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

24+阅读 · 2022年9月22日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知会员服务

24+阅读 · 2021年11月26日

【NeurIPS2021】序一致因果图的多任务学习

【NeurIPS2021】序一致因果图的多任务学习

专知会员服务

20+阅读 · 2021年11月7日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【NeurIPS2022】具有自适应读出的图神经网络

【NeurIPS2022】具有自适应读出的图神经网络

专知

1+阅读 · 2022年11月11日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【NeurIPS2022】通过模型转换的可解释强化学习

【NeurIPS2022】通过模型转换的可解释强化学习

专知

1+阅读 · 2022年10月4日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知

2+阅读 · 2022年9月22日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

《元强化学习》最新，70页ppt

《元强化学习》最新，70页ppt

专知

2+阅读 · 2022年9月16日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知

3+阅读 · 2022年8月29日

【CVPR 2022】基于可迁移GNN的自适应轨迹预测

【CVPR 2022】基于可迁移GNN的自适应轨迹预测

专知

4+阅读 · 2022年3月11日

【NeurIPS2021】视觉语言导航的课程学习

【NeurIPS2021】视觉语言导航的课程学习

专知

1+阅读 · 2021年11月26日

【NeurIPS2021】任务导向的无监督域自适应

【NeurIPS2021】任务导向的无监督域自适应

专知

1+阅读 · 2021年11月20日

相关基金

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布异构环境下基于多Agent的复杂供应链网络计算实验方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于自适应-脉冲协议的不确定性多智能体系统的一致性研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

两相状态下管内机器人的自适应移动机理与控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定多智能体系统一致性的分布式自适应控制

国家自然科学基金

7+阅读 · 2012年12月31日

基于GIS的森林资源调查空间平衡抽样理论与方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

HyperTuning: Toward Adapting Large Language Models without Back-propagation

Arxiv

0+阅读 · 2022年11月22日

Unsupervised Learning of Temporal Abstractions with Slot-based Transformers

Arxiv

0+阅读 · 2022年11月22日

Eliciting and Understanding Cross-Task Skills with Task-Level Mixture-of-Experts

Arxiv

0+阅读 · 2022年11月22日

Hierarchical Graph Structures for Congestion and ETA Prediction

Arxiv

0+阅读 · 2022年11月21日

A Generalized EigenGame with Extensions to Multiview Representation Learning

Arxiv

0+阅读 · 2022年11月21日

What's the Harm? Sharp Bounds on the Fraction Negatively Affected by Treatment

Arxiv

0+阅读 · 2022年11月21日

Entity-Assisted Language Models for Identifying Check-worthy Sentences

Arxiv

0+阅读 · 2022年11月19日

Scaling Native Language Identification with Transformer Adapters

Arxiv

0+阅读 · 2022年11月18日

Generative Models as a Data Source for Multiview Representation Learning

Arxiv

16+阅读 · 2021年6月9日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

大家都在搜

CMU博士论文

无人机集群

软件无线电

国防科技创新

久别重逢话双塔

再见，TD-SCDMA！

微信扫码咨询专知VIP会员