We consider the problem of sequentially allocating resources in a censored semi-bandits setup, where the learner allocates resources at each step to the arms and observes loss. The loss depends on two hidden parameters, one specific to the arm but independent of the resource allocation, and the other depends on the allocated resource. More specifically, the loss equals zero for an arm if the resource allocated to it exceeds a constant (but unknown) arm dependent threshold. The goal is to learn a resource allocation that minimizes the expected loss. The problem is challenging because the loss distribution and threshold value of each arm are unknown. We study this setting by establishing its `equivalence' to Multiple-Play Multi-Armed Bandits (MP-MAB) and Combinatorial Semi-Bandits. Exploiting these equivalences, we derive optimal algorithms for our problem setting using known algorithms for MP-MAB and Combinatorial Semi-Bandits. The experiments on synthetically generated data validate the performance guarantees of the proposed algorithms.


翻译:我们考虑的是按顺序在受审查的半腰部设置中分配资源的问题,在这种设置中,学习者将每一步的资源分配给手臂并观察损失情况。损失取决于两个隐藏参数,一个是手臂特有的,但独立于资源分配,另一个则取决于分配的资源。更具体地说,如果分配给一个手臂的资源超过一个常数(但未知的)手臂依赖阈值,则其损失等于其零。目标是学习如何分配资源,以尽量减少预期的损失。由于每个手臂的损失分布和阈值未知,问题十分严峻。我们研究这一设置时,通过建立其“等同性”到多盘多盘多臂盗(MP-MAB)和组合式半盘式半盘算法。利用这些等同性,我们利用已知的MP-MAB和组合半盘算法确定我们的问题设置,得出最佳算法。关于合成数据实验证实了拟议算法的性保证。

0
下载
关闭预览

相关内容

安谋控股公司,又称ARM公司,跨国性半导体设计与软件公司,总部位于英国英格兰剑桥。主要的产品是ARM架构处理器的设计,将其以知识产权的形式向客户进行授权,同时也提供软件开发工具。 维基百科
专知会员服务
41+阅读 · 2020年12月18日
专知会员服务
50+阅读 · 2020年12月14日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
43+阅读 · 2020年8月19日
迁移学习简明教程,11页ppt
专知会员服务
106+阅读 · 2020年8月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
LeetCode的C++ 11/Python3 题解及解释
专知
16+阅读 · 2019年4月13日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年6月7日
Arxiv
0+阅读 · 2021年6月6日
Arxiv
0+阅读 · 2021年6月4日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
LeetCode的C++ 11/Python3 题解及解释
专知
16+阅读 · 2019年4月13日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员