We consider the problem where $N$ agents collaboratively interact with an instance of a stochastic $K$ arm bandit problem for $K \gg N$. The agents aim to simultaneously minimize the cumulative regret over all the agents for a total of $T$ time steps, the number of communication rounds, and the number of bits in each communication round. We present Limited Communication Collaboration - Upper Confidence Bound (LCC-UCB), a doubling-epoch based algorithm where each agent communicates only after the end of the epoch and shares the index of the best arm it knows. With our algorithm, LCC-UCB, each agent enjoys a regret of $\tilde{O}\left(\sqrt{({K/N}+ N)T}\right)$, communicates for $O(\log T)$ steps and broadcasts $O(\log K)$ bits in each communication step. We extend the work to sparse graphs with maximum degree $K_G$, and diameter $D$ and propose LCC-UCB-GRAPH which enjoys a regret bound of $\tilde{O}\left(D\sqrt{(K/N+ K_G)DT}\right)$. Finally, we empirically show that the LCC-UCB and the LCC-UCB-GRAPH algorithm perform well and outperform strategies that communicate through a central node


翻译:我们考虑的问题是,美元代理商与一个以美元为美元、美元为美元、美元为美元、美元为美元、通信周期的数量和每轮通信中的位数,同时将所有代理商累积的遗憾降到最低,总共为美元时间步骤、通信回合的数量和每轮通信中的位数。我们展示了有限通信协作-高信任圈(LCC-UB),这是一种基于双时代的算法,其中每个代理商仅在危机结束后才进行通信,并分享所知道的最佳臂的指数。根据我们的算法,LCC-UCB,每个代理商都享有对美元-美元左翼(sqrt{{K/NQ_NQ_Right)的遗憾,以美元进行通信合作-高信任圈(LCC-K),并在每通信步骤中播放美元(O)比特。我们把工作扩大到以最高K_G美元和直径的稀薄图表,并提议LCC-CBARB-GRAPH, 以美元为美元/CRAP_O_BRF_C_C_C_G_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_B_B_LD_B_B_B_C_C_B_C_B_B_B_C_B_B_B_B_B_B_B_B_B_C_B_C_B_B_B_C_C_B_B_C_C_C_C_C_B_B_B_C_C_C_C_C_C_C_C_C_C_B_B_B_B_B_B_B_B_B_B_B_B_B_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_C_B_C_C_B_B_B_C_C_B_B_B_B_B_B_C_C_C_C_C_C_C_C_C_C_C_B_B_C_C_C_C_C_C_

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年4月9日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2018年4月11日
VIP会员
相关VIP内容
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员