具有线性汤普森取样应用的随机化椭圆潜力柠檬 (The Randomized Elliptical Potential Lemma with an Application to Linear Thompson Sampling) - 专知论文

会员服务 ·

0

线性的 · 噪声分布 · Bandits · 噪声 · 赌博机/老虎机 ·

2021 年 2 月 16 日

The Randomized Elliptical Potential Lemma with an Application to Linear Thompson Sampling

翻译：具有线性汤普森取样应用的随机化椭圆潜力柠檬

Nima Hamidi,Mohsen Bayati

In this note, we introduce a randomized version of the well-known elliptical potential lemma that is widely used in the analysis of algorithms in sequential learning and decision-making problems such as stochastic linear bandits. Our randomized elliptical potential lemma relaxes the Gaussian assumption on the observation noise and on the prior distribution of the problem parameters. We then use this generalization to prove an improved Bayesian regret bound for Thompson sampling for the linear stochastic bandits with changing action sets where prior and noise distributions are general. This bound is minimax optimal up to constants.

翻译：在本说明中,我们引入了一种已知的椭圆潜力的随机版,广泛用于分析相继学习和决策问题的算法,例如随机的椭圆潜力,我们随机的椭圆潜力,放松高斯对观测噪音和问题参数先前分布的假设。然后我们用这种概括来证明一种更好的巴伊西亚人对于Thompson对线性随机强盗取样的遗憾,这些强盗的动作组在以前和噪音分布一般的情况下变化。这个约束是最小到常数的最理想的。

0

相关内容

线性的

【经典书】信息论与统计: 教程，116页pdf

【经典书】信息论与统计: 教程，116页pdf

专知会员服务

61+阅读 · 2021年3月27日

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

专知会员服务

426+阅读 · 2021年1月11日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

122+阅读 · 2020年5月30日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

111+阅读 · 2020年5月15日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

244+阅读 · 2019年10月21日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

已删除

将门创投

6+阅读 · 2017年7月6日

Learning Sampling Policy for Faster Derivative Free Optimization

Learning Sampling Policy for Faster Derivative Free Optimization

Arxiv

0+阅读 · 2021年4月9日

Householder orthogonalization with a non-standard inner product

Arxiv

0+阅读 · 2021年4月9日

Information-Directed Exploration for Deep Reinforcement Learning

Information-Directed Exploration for Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年12月18日

Approximability of Discriminators Implies Diversity in GANs

Approximability of Discriminators Implies Diversity in GANs

Arxiv

4+阅读 · 2018年6月27日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

The Search Problem in Mixture Models

Arxiv

3+阅读 · 2018年2月24日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

Coulomb GANs: Provably Optimal Nash Equilibria via Potential Fields

Arxiv

4+阅读 · 2018年1月30日

VIP会员

文章信息

相关主题

赌博机/老虎机

相关VIP内容

【经典书】信息论与统计: 教程，116页pdf

【经典书】信息论与统计: 教程，116页pdf

专知会员服务

61+阅读 · 2021年3月27日

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

MIT经典《线性代数》，584页pdf，Introduction to Linear Algebra, Fifth Edition, Gilbert Strang, 2016.

专知会员服务

426+阅读 · 2021年1月11日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

122+阅读 · 2020年5月30日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

111+阅读 · 2020年5月15日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

【机器学习基础最新版】（Mathematics for Machine Learning），417页pdf

专知会员服务

244+阅读 · 2019年10月21日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能行业：2027年AI预测报告

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

训练扩散模型其实比你想象的更简单！何恺明团队新作Dispersive Loss：给扩散模型加正则化

【ICML2025】用于可扩展持续强化学习的自组合策略

相关资讯

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

已删除

将门创投

6+阅读 · 2017年7月6日

相关论文

Learning Sampling Policy for Faster Derivative Free Optimization

Learning Sampling Policy for Faster Derivative Free Optimization

Arxiv

0+阅读 · 2021年4月9日

Householder orthogonalization with a non-standard inner product

Arxiv

0+阅读 · 2021年4月9日

Information-Directed Exploration for Deep Reinforcement Learning

Information-Directed Exploration for Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年12月18日

Approximability of Discriminators Implies Diversity in GANs

Approximability of Discriminators Implies Diversity in GANs

Arxiv

4+阅读 · 2018年6月27日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

The Search Problem in Mixture Models

Arxiv

3+阅读 · 2018年2月24日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

Coulomb GANs: Provably Optimal Nash Equilibria via Potential Fields

Arxiv

4+阅读 · 2018年1月30日

微信扫码咨询专知VIP会员