不良政策密度:强化学习困难度度 (Bad-Policy Density: A Measure of Reinforcement Learning Hardness) - 专知论文

会员服务 ·

0

学成 · SimPLe · 强化学习 · 平稳的 · 回合 ·

2021 年 10 月 7 日

Bad-Policy Density: A Measure of Reinforcement Learning Hardness

翻译：不良政策密度:强化学习困难度度

David Abel,Cameron Allen,Dilip Arumugam,D. Ellis Hershkowitz,Michael L. Littman,Lawson L. S. Wong

from arxiv, Presented at the 2021 ICML Workshop on Reinforcement Learning Theory

Reinforcement learning is hard in general. Yet, in many specific environments, learning is easy. What makes learning easy in one environment, but difficult in another? We address this question by proposing a simple measure of reinforcement-learning hardness called the bad-policy density. This quantity measures the fraction of the deterministic stationary policy space that is below a desired threshold in value. We prove that this simple quantity has many properties one would expect of a measure of learning hardness. Further, we prove it is NP-hard to compute the measure in general, but there are paths to polynomial-time approximation. We conclude by summarizing potential directions and uses for this measure.

翻译：强化学习一般是困难的。然而,在许多特定的环境中,学习是容易的。是什么使得在一个环境中学习容易,而在另一个环境中则很困难?我们通过提出一个称为坏政策密度的简单强化学习硬性衡量标准来解决这个问题。这个数量用来衡量低于理想值阈值的决定性固定政策空间的一小部分。我们证明,这一简单数量具有许多特性,人们可以期望某种程度的学习硬性。此外,我们证明,一般地计算衡量尺度是很难的,但是有通往多时近似的途径。我们最后总结了这一措施的潜在方向和用途。

0

相关内容

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

2020数据工程师成长路线图

专知会员服务

40+阅读 · 2020年9月6日

【干货书】真实机器学习，264页pdf，Real-World Machine Learning

【干货书】真实机器学习，264页pdf，Real-World Machine Learning

专知会员服务

115+阅读 · 2020年4月5日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

84+阅读 · 2020年2月18日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

243+阅读 · 2019年10月21日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

35+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

154+阅读 · 2019年10月12日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

意识是一种数学模式

意识是一种数学模式

CreateAMind

3+阅读 · 2019年6月24日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

19+阅读 · 2019年5月24日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

42+阅读 · 2019年1月3日

spinningup.openai 强化学习资源完整

spinningup.openai 强化学习资源完整

CreateAMind

6+阅读 · 2018年12月17日

Reinforcement Learning: An Introduction 2018第二版 500页

Reinforcement Learning: An Introduction 2018第二版 500页

CreateAMind

12+阅读 · 2018年4月27日

carla 学习笔记

carla 学习笔记

CreateAMind

9+阅读 · 2018年2月7日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Understanding Adversarial Attacks on Observations in Deep Reinforcement Learning

Arxiv

1+阅读 · 2021年12月1日

Improving Zero-shot Generalization in Offline Reinforcement Learning using Generalized Similarity Functions

Arxiv

0+阅读 · 2021年11月29日

Which Samples Should be Learned First: Easy or Hard?

Arxiv

0+阅读 · 2021年11月27日

Reinforcement Explanation Learning

Arxiv

0+阅读 · 2021年11月26日

On the Estimation of Information Measures of Continuous Distributions

Arxiv

0+阅读 · 2021年11月24日

Density Constrained Reinforcement Learning

Arxiv

6+阅读 · 2021年6月24日

Learning to Reweight Examples for Robust Deep Learning

Arxiv

3+阅读 · 2019年5月5日

Reinforcement Learning with Perturbed Rewards

Arxiv

3+阅读 · 2018年10月5日

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Arxiv

5+阅读 · 2018年7月23日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

2020数据工程师成长路线图

专知会员服务

40+阅读 · 2020年9月6日

【干货书】真实机器学习，264页pdf，Real-World Machine Learning

【干货书】真实机器学习，264页pdf，Real-World Machine Learning

专知会员服务

115+阅读 · 2020年4月5日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

84+阅读 · 2020年2月18日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

243+阅读 · 2019年10月21日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

35+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

154+阅读 · 2019年10月12日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

为什么说DeepSeek的R1-Zero比R1更值得关注？

【ICLR2025】用于大型语言模型对齐的差分隐私引导

图表大数据解析方法综述

【新书】数学的本质——通过基础问题探究，400页pdf

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

意识是一种数学模式

意识是一种数学模式

CreateAMind

3+阅读 · 2019年6月24日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

19+阅读 · 2019年5月24日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

42+阅读 · 2019年1月3日

spinningup.openai 强化学习资源完整

spinningup.openai 强化学习资源完整

CreateAMind

6+阅读 · 2018年12月17日

Reinforcement Learning: An Introduction 2018第二版 500页

Reinforcement Learning: An Introduction 2018第二版 500页

CreateAMind

12+阅读 · 2018年4月27日

carla 学习笔记

carla 学习笔记

CreateAMind

9+阅读 · 2018年2月7日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Understanding Adversarial Attacks on Observations in Deep Reinforcement Learning

Arxiv

1+阅读 · 2021年12月1日

Improving Zero-shot Generalization in Offline Reinforcement Learning using Generalized Similarity Functions

Arxiv

0+阅读 · 2021年11月29日

Which Samples Should be Learned First: Easy or Hard?

Arxiv

0+阅读 · 2021年11月27日

Reinforcement Explanation Learning

Arxiv

0+阅读 · 2021年11月26日

On the Estimation of Information Measures of Continuous Distributions

Arxiv

0+阅读 · 2021年11月24日

Density Constrained Reinforcement Learning

Arxiv

6+阅读 · 2021年6月24日

Learning to Reweight Examples for Robust Deep Learning

Arxiv

3+阅读 · 2019年5月5日

Reinforcement Learning with Perturbed Rewards

Arxiv

3+阅读 · 2018年10月5日

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Arxiv

5+阅读 · 2018年7月23日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

微信扫码咨询专知VIP会员