具有环经中转性国家结构的多动动人点的乐观政策迭接 (Optimistic Policy Iteration for MDPs with Acyclic Transient State Structure) - 专知论文

会员服务 ·

0

策略迭代 · 图 · 马尔可夫链 · 平稳的 · Processing（编程语言） ·

2021 年 3 月 9 日

Optimistic Policy Iteration for MDPs with Acyclic Transient State Structure

翻译：具有环经中转性国家结构的多动动人点的乐观政策迭接

Joseph Lubars,Anna Winnicki,Michael Livesay,R. Srikant

from arxiv, 16 pages, 3 figures

We consider Markov Decision Processes (MDPs) in which every stationary policy induces the same graph structure for the underlying Markov chain and further, the graph has the following property: if we replace each recurrent class by a node, then the resulting graph is acyclic. For such MDPs, we prove the convergence of the stochastic dynamics associated with a version of optimistic policy iteration (OPI), suggested in Tsitsiklis (2002), in which the values associated with all the nodes visited during each iteration of the OPI are updated.

翻译：我们认为,每套固定政策都为基底的马可夫链带来相同的图表结构的Markov决策程序(MDPs),此外,该图具有以下属性:如果我们用节点取代每个常态类,那么所产生的图表就是一个周期性图。对于这种MDPs,我们证明Tsitsiklis(2002年)所建议的与乐观政策迭代(OPI)版本相关的随机动态的趋同,该版本更新了在每次循环期间所访问的所有节点的相关值。

0

相关内容

策略迭代

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

专知会员服务

27+阅读 · 2020年8月6日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

自动结构变分推理，Automatic structured variational inference

自动结构变分推理，Automatic structured variational inference

专知会员服务

41+阅读 · 2020年2月10日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

分布式并行架构Ray介绍

分布式并行架构Ray介绍

CreateAMind

10+阅读 · 2019年8月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

人工智能 | COLT 2019等国际会议信息9条

人工智能 | COLT 2019等国际会议信息9条

Call4Papers

6+阅读 · 2018年9月21日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

分布式TensorFlow入门指南

分布式TensorFlow入门指南

机器学习研究会

4+阅读 · 2017年11月28日

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

产业智能官

6+阅读 · 2017年9月1日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

Arxiv

7+阅读 · 2021年3月10日

Differential Dynamic Programming Neural Optimizer

Arxiv

7+阅读 · 2020年6月29日

Hierarchical Graph Pooling with Structure Learning

Arxiv

13+阅读 · 2019年11月14日

Learning Discrete Structures for Graph Neural Networks

Arxiv

6+阅读 · 2019年5月17日

End-to-end Structure-Aware Convolutional Networks for Knowledge Base Completion

Arxiv

3+阅读 · 2018年11月15日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

Understanding disentangling in $β$-VAE

Arxiv

4+阅读 · 2018年4月10日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

Constraint and Mathematical Programming Models for Integrated Port Container Terminal Operations

Arxiv

3+阅读 · 2017年12月14日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

VIP会员

文章信息

相关主题

马尔可夫链

Processing（编程语言）

相关VIP内容

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

专知会员服务

27+阅读 · 2020年8月6日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

自动结构变分推理，Automatic structured variational inference

自动结构变分推理，Automatic structured variational inference

专知会员服务

41+阅读 · 2020年2月10日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

分布式并行架构Ray介绍

分布式并行架构Ray介绍

CreateAMind

10+阅读 · 2019年8月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

人工智能 | COLT 2019等国际会议信息9条

人工智能 | COLT 2019等国际会议信息9条

Call4Papers

6+阅读 · 2018年9月21日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

分布式TensorFlow入门指南

分布式TensorFlow入门指南

机器学习研究会

4+阅读 · 2017年11月28日

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

产业智能官

6+阅读 · 2017年9月1日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

Arxiv

7+阅读 · 2021年3月10日

Differential Dynamic Programming Neural Optimizer

Arxiv

7+阅读 · 2020年6月29日

Hierarchical Graph Pooling with Structure Learning

Arxiv

13+阅读 · 2019年11月14日

Learning Discrete Structures for Graph Neural Networks

Arxiv

6+阅读 · 2019年5月17日

End-to-end Structure-Aware Convolutional Networks for Knowledge Base Completion

Arxiv

3+阅读 · 2018年11月15日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

Understanding disentangling in $β$-VAE

Arxiv

4+阅读 · 2018年4月10日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

Constraint and Mathematical Programming Models for Integrated Port Container Terminal Operations

Arxiv

3+阅读 · 2017年12月14日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

微信扫码咨询专知VIP会员