翻译标题：广义策略改进算法与理论支持的样本重复利用翻译摘要：基于数据的学习控制方法能够提高复杂系统的操作效率，无模型深度强化学习是一种流行的数据驱动控制方法。然而，现有的算法类别在现实控制中存在两个重要的部署要求之间的权衡：（i）实用性能保证和（ii）数据效率。离策略算法通过样本重复利用高效地利用数据，但缺乏理论保证，而现场策略算法在整个训练过程中保证近似策略改进，但样本复杂度较高。为了平衡这些竞争目标，我们开发了一类广义策略改进算法，将现场策略算法的策略改进保证与样本重用的效率相结合。通过在DeepMind Control Suite中对各种连续控制任务进行广泛的实验分析，我们展示了这种新型算法的优势。 (Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse) - 专知论文

会员服务 ·

0

策略改进 · 算法 · 广义 · 样本 · 离策略 ·

2023 年 4 月 14 日

Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse

翻译：翻译标题：广义策略改进算法与理论支持的样本重复利用翻译摘要：基于数据的学习控制方法能够提高复杂系统的操作效率，无模型深度强化学习是一种流行的数据驱动控制方法。然而，现有的算法类别在现实控制中存在两个重要的部署要求之间的权衡：（i）实用性能保证和（ii）数据效率。离策略算法通过样本重复利用高效地利用数据，但缺乏理论保证，而现场策略算法在整个训练过程中保证近似策略改进，但样本复杂度较高。为了平衡这些竞争目标，我们开发了一类广义策略改进算法，将现场策略算法的策略改进保证与样本重用的效率相结合。通过在DeepMind Control Suite中对各种连续控制任务进行广泛的实验分析，我们展示了这种新型算法的优势。

James Queeney,Ioannis Ch. Paschalidis,Christos G. Cassandras

Data-driven, learning-based control methods offer the potential to improve operations in complex systems, and model-free deep reinforcement learning represents a popular approach to data-driven control. However, existing classes of algorithms present a trade-off between two important deployment requirements for real-world control: (i) practical performance guarantees and (ii) data efficiency. Off-policy algorithms make efficient use of data through sample reuse but lack theoretical guarantees, while on-policy algorithms guarantee approximate policy improvement throughout training but suffer from high sample complexity. In order to balance these competing goals, we develop a class of Generalized Policy Improvement algorithms that combines the policy improvement guarantees of on-policy methods with the efficiency of sample reuse. We demonstrate the benefits of this new class of algorithms through extensive experimental analysis on a variety of continuous control tasks from the DeepMind Control Suite.

翻译：

0

相关内容

策略改进

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【东京大学博士论文】基于收敛强化学习的多自由度连续量子系统控制，100页pdf

【东京大学博士论文】基于收敛强化学习的多自由度连续量子系统控制，100页pdf

专知会员服务

16+阅读 · 2022年12月25日

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

专知会员服务

65+阅读 · 2022年12月21日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知

0+阅读 · 2022年10月20日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

基于Markov方法的大规模多阶段任务系统可靠性建模与分析

国家自然科学基金

1+阅读 · 2013年12月31日

非线性Cahn-Hilliard型方程自适应高阶稳定数值方法分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于协方差理论的UCT动态关联算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

动态和多元非参数控制图的研究与应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于随机动态规划和支持向量机的混合动力船舶能量管理策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于学习人类策略的动态稳定系统控制器切换方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

多天线无线通信系统的鲁棒性设计

国家自然科学基金

2+阅读 · 2012年12月31日

在线和离线折衷排序研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于假设/保证自动推理的组合验证研究

国家自然科学基金

0+阅读 · 2009年12月31日

数值求解最优控制：动态规划方法

国家自然科学基金

1+阅读 · 2009年12月31日

Offline Meta Reinforcement Learning with In-Distribution Online Adaptation

Arxiv

1+阅读 · 2023年6月1日

Policy Optimization for Continuous Reinforcement Learning

Arxiv

0+阅读 · 2023年6月1日

Efficient Failure Pattern Identification of Predictive Algorithms

Arxiv

0+阅读 · 2023年6月1日

Direct Diffusion Bridge using Data Consistency for Inverse Problems

Arxiv

0+阅读 · 2023年5月31日

Reliable Off-Policy Learning for Dosage Combinations

Arxiv

0+阅读 · 2023年5月31日

Hypothesis Transfer Learning with Surrogate Classification Losses

Arxiv

0+阅读 · 2023年5月31日

Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs

Arxiv

0+阅读 · 2023年5月31日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

A Comparative Study for Unsupervised Network Representation Learning

Arxiv

24+阅读 · 2020年3月11日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

VIP会员

文章信息

相关主题

相关VIP内容

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【东京大学博士论文】基于收敛强化学习的多自由度连续量子系统控制，100页pdf

【东京大学博士论文】基于收敛强化学习的多自由度连续量子系统控制，100页pdf

专知会员服务

16+阅读 · 2022年12月25日

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

专知会员服务

65+阅读 · 2022年12月21日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关资讯

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知

0+阅读 · 2022年10月20日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Offline Meta Reinforcement Learning with In-Distribution Online Adaptation

Arxiv

1+阅读 · 2023年6月1日

Policy Optimization for Continuous Reinforcement Learning

Arxiv

0+阅读 · 2023年6月1日

Efficient Failure Pattern Identification of Predictive Algorithms

Arxiv

0+阅读 · 2023年6月1日

Direct Diffusion Bridge using Data Consistency for Inverse Problems

Arxiv

0+阅读 · 2023年5月31日

Reliable Off-Policy Learning for Dosage Combinations

Arxiv

0+阅读 · 2023年5月31日

Hypothesis Transfer Learning with Surrogate Classification Losses

Arxiv

0+阅读 · 2023年5月31日

Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs

Arxiv

0+阅读 · 2023年5月31日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

A Comparative Study for Unsupervised Network Representation Learning

Arxiv

24+阅读 · 2020年3月11日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

相关基金

基于Markov方法的大规模多阶段任务系统可靠性建模与分析

国家自然科学基金

1+阅读 · 2013年12月31日

非线性Cahn-Hilliard型方程自适应高阶稳定数值方法分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于协方差理论的UCT动态关联算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

动态和多元非参数控制图的研究与应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于随机动态规划和支持向量机的混合动力船舶能量管理策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于学习人类策略的动态稳定系统控制器切换方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

多天线无线通信系统的鲁棒性设计

国家自然科学基金

2+阅读 · 2012年12月31日

在线和离线折衷排序研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于假设/保证自动推理的组合验证研究

国家自然科学基金

0+阅读 · 2009年12月31日

数值求解最优控制：动态规划方法

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员