制度切换强盗 (Regime Switching Bandits) - 专知论文

会员服务 ·

0

赌博机/老虎机 · 学成 · 部分可观测马尔可夫决策过程 · 状态转移矩阵 · 马尔可夫链 ·

2021 年 1 月 29 日

Regime Switching Bandits

翻译：制度切换强盗

Xiang Zhou,Yi Xiong,Ningyuan Chen,Xuefeng Gao

We study a multi-armed bandit problem where the rewards exhibit regime switching. Specifically, the distributions of the random rewards generated from all arms are modulated by a common underlying state modeled as a finite-state Markov chain. The agent does not observe the underlying state and has to learn the transition matrix and the reward distributions. We propose a learning algorithm for this problem, building on spectral method-of-moments estimations for hidden Markov models, belief error control in partially observable Markov decision processes and upper-confidence-bound methods for online learning. We also establish an upper bound $O(T^{2/3}\sqrt{\log T})$ for the proposed learning algorithm where $T$ is the learning horizon. Finally, we conduct proof-of-concept experiments to illustrate the performance of the learning algorithm.

翻译：我们研究的是多武装的盗匪问题,因为奖励展览制度可以转换。具体地说,所有武器产生的随机奖赏的分配都由一个共同的基本国家调节,这种国家模式是有限的马尔科夫链。代理人不观察基本状态,必须学习过渡矩阵和奖赏分配。我们提出这个问题的学习算法,以隐藏的马尔科夫模型的光谱方法估计、部分可见的马尔科夫决策程序中的信念错误控制以及在线学习的具有高度信心的方法为基础。我们还为拟议的学习算法建立了上限值为O(T ⁇ 2/3 ⁇ sqrt~log T),其中$T是学习的视野。最后,我们进行概念验证实验,以说明学习算法的绩效。

0

相关内容

赌博机/老虎机

赌博机/老虎机

【斯坦福CS224w图机器学习第6讲】图神经网络模型概述总结，67页ppt

【斯坦福CS224w图机器学习第6讲】图神经网络模型概述总结，67页ppt

专知会员服务

60+阅读 · 2021年1月31日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

231+阅读 · 2020年6月5日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

163+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

282+阅读 · 2019年10月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Stochastic Bandits for Multi-platform Budget Optimization in Online Advertising

Arxiv

0+阅读 · 2021年3月25日

Pair-switching rerandomization

Arxiv

0+阅读 · 2021年3月24日

Identification of Linear Regressions with Errors in all Variables

Arxiv

0+阅读 · 2021年3月23日

Bandits with many optimal arms

Arxiv

0+阅读 · 2021年3月23日

UCB-based Algorithms for Multinomial Logistic Regression Bandits

Arxiv

0+阅读 · 2021年3月21日

Forward and Backward Bellman equations improve the efficiency of EM algorithm for DEC-POMDP

Arxiv

0+阅读 · 2021年3月19日

Towards a Dimension-Free Understanding of Adaptive Linear Control

Arxiv

0+阅读 · 2021年3月19日

Phase Transitions in Bandits with Switching Constraints

Arxiv

0+阅读 · 2021年3月18日

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

Arxiv

5+阅读 · 2020年4月2日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

VIP会员

文章信息

相关主题

赌博机/老虎机

部分可观测马尔可夫决策过程

状态转移矩阵

马尔可夫链

相关VIP内容

【斯坦福CS224w图机器学习第6讲】图神经网络模型概述总结，67页ppt

【斯坦福CS224w图机器学习第6讲】图神经网络模型概述总结，67页ppt

专知会员服务

60+阅读 · 2021年1月31日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

231+阅读 · 2020年6月5日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

163+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

282+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Stochastic Bandits for Multi-platform Budget Optimization in Online Advertising

Arxiv

0+阅读 · 2021年3月25日

Pair-switching rerandomization

Arxiv

0+阅读 · 2021年3月24日

Identification of Linear Regressions with Errors in all Variables

Arxiv

0+阅读 · 2021年3月23日

Bandits with many optimal arms

Arxiv

0+阅读 · 2021年3月23日

UCB-based Algorithms for Multinomial Logistic Regression Bandits

Arxiv

0+阅读 · 2021年3月21日

Forward and Backward Bellman equations improve the efficiency of EM algorithm for DEC-POMDP

Arxiv

0+阅读 · 2021年3月19日

Towards a Dimension-Free Understanding of Adaptive Linear Control

Arxiv

0+阅读 · 2021年3月19日

Phase Transitions in Bandits with Switching Constraints

Arxiv

0+阅读 · 2021年3月18日

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

Arxiv

5+阅读 · 2020年4月2日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

微信扫码咨询专知VIP会员