We consider combinatorial semi-bandits with uncorrelated Gaussian rewards. In this article, we propose the first method, to the best of our knowledge, that enables to compute the solution of the Graves-Lai optimization problem in polynomial time for many combinatorial structures of interest. In turn, this immediately yields the first known approach to implement asymptotically optimal algorithms in polynomial time for combinatorial semi-bandits.


翻译:我们考虑的是具有与高斯无关联的奖赏的组合半大宗。 在本文中,我们建议了第一种方法,根据我们的知识,能够计算多种组合结构感兴趣的多种组合结构在多元时间的格雷夫斯-拉伊优化问题的解决办法。 反过来,这立即产生了第一个已知的方法,在复合时间对组合半大宗组合实施非同步最佳算法。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2020年8月3日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Arxiv
0+阅读 · 2021年4月7日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2020年8月3日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Top
微信扫码咨询专知VIP会员