Out of the rich family of generalized linear bandits, perhaps the most well studied ones are logisitc bandits that are used in problems with binary rewards: for instance, when the learner/agent tries to maximize the profit over a user that can select one of two possible outcomes (e.g., `click' vs `no-click'). Despite remarkable recent progress and improved algorithms for logistic bandits, existing works do not address practical situations where the number of outcomes that can be selected by the user is larger than two (e.g., `click', `show me later', `never show again', `no click'). In this paper, we study such an extension. We use multinomial logit (MNL) to model the probability of each one of $K+1\geq 2$ possible outcomes (+1 stands for the `not click' outcome): we assume that for a learner's action $\mathbf{x}_t$, the user selects one of $K+1\geq 2$ outcomes, say outcome $i$, with a multinomial logit (MNL) probabilistic model with corresponding unknown parameter $\bar{\boldsymbol\theta}_{\ast i}$. Each outcome $i$ is also associated with a revenue parameter $\rho_i$ and the goal is to maximize the expected revenue. For this problem, we present MNL-UCB, an upper confidence bound (UCB)-based algorithm, that achieves regret $\tilde{\mathcal{O}}(dK\sqrt{T})$ with small dependency on problem-dependent constants that can otherwise be arbitrarily large and lead to loose regret bounds. We present numerical simulations that corroborate our theoretical results.


翻译:在一般线性匪徒的丰富家族中 { 广泛线性土匪的丰富家族中,也许研究得最周密的是用于解决二进制奖励问题的对数土匪:例如,当学习者/代理人试图使能够选择两种可能结果之一的用户获得最大利润时(例如,“点击”对“不点击 ” ) 。尽管最近取得了显著的进步,后勤匪徒的算法也得到了改进,但现有的工程并没有解决用户可以选择的结果数量大于两个(例如,“点击”、“稍后向我展示”、“不再显示”、“不点击” )。在本文中,我们研究这样一个扩展。我们使用多数值logit(MNL) 来模拟每个K+1 geq 2美元可能结果的概率(+1是“不点击”的结果 :对于学习者的行动$\ mathbf{xxx} 基础,用户选择了$K+1+Geq_bral_bral_bral_al resulate resulate, ligal ligal_al_alx ligal ligal ligal_al bal_al_al ligal bal bal ligal ligal lix) maxnal bal ma_al bal maxnal max maxx maxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

0
下载
关闭预览

相关内容

多元逻辑回归模型的理论前提相对判别分析法要宽松得多,且没有关于分布类型、协方差阵等方面的严格假定。不过,在大量运用多元逻辑 回归的研究中往往忽视了另一个相当重要的问题,即模型自变量之间可能存在的多重共线性干扰。与其他多元回归方法一样,Logistic回归模型也对多元共线性敏感。当变量之间的相关程度提高时,系数估计的标准误将会急剧增加;同时,系数对样本和模型设置都非常敏感,模型设置的微小变化、在样本总体中加入或删除案例等变动,都会导致系数估计的较大变化。
专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
123+阅读 · 2020年9月8日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
49+阅读 · 2020年8月25日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
[DLdigest-8] 每日一道算法
深度学习每日摘要
4+阅读 · 2017年11月2日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年5月17日
Arxiv
0+阅读 · 2021年5月17日
Arxiv
0+阅读 · 2021年5月16日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
NIPS 2017:贝叶斯深度学习与深度贝叶斯学习(讲义+视频)
机器学习研究会
36+阅读 · 2017年12月10日
[DLdigest-8] 每日一道算法
深度学习每日摘要
4+阅读 · 2017年11月2日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员