We introduce a new graphical bilinear bandit problem where a learner (or a \emph{central entity}) allocates arms to the nodes of a graph and observes for each edge a noisy bilinear reward representing the interaction between the two end nodes. We study the best arm identification problem in which the learner wants to find the graph allocation maximizing the sum of the bilinear rewards. By efficiently exploiting the geometry of this bandit problem, we propose a \emph{decentralized} allocation strategy based on random sampling with theoretical guarantees. In particular, we characterize the influence of the graph structure (e.g. star, complete or circle) on the convergence rate and propose empirical experiments that confirm this dependency.


翻译:我们引入一个新的图形双线强盗问题, 即学习者( 或 \ emph{ 中央实体 ) 将手臂分配到图表的节点上, 并观察每个边缘的噪音双线性奖赏, 代表两个端节点之间的相互作用。 我们研究最好的手臂识别问题, 学习者想在其中找到图表分配方式, 使双线性奖赏之和最大化。 通过高效利用这个土匪问题的几何学, 我们提出了一个基于随机抽样和理论保证的 分配策略 。 特别是, 我们描述图表结构( 如恒星、 完整或圆形) 对汇合率的影响, 并提出证实这一依赖性的经验实验 。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
已删除
将门创投
8+阅读 · 2019年3月18日
Arxiv
0+阅读 · 2021年4月6日
Arxiv
0+阅读 · 2021年4月4日
Arxiv
0+阅读 · 2021年4月2日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
已删除
将门创投
8+阅读 · 2019年3月18日
Top
微信扫码咨询专知VIP会员