A stochastic multi-user multi-armed bandit framework is used to develop algorithms for uncoordinated spectrum access. In contrast to prior work, it is assumed that rewards can be non-zero even under collisions, thus allowing for the number of users to be greater than the number of channels. The proposed algorithm consists of an estimation phase and an allocation phase. It is shown that if every user adopts the algorithm, the system wide regret is order-optimal of order $O(\log T)$ over a time-horizon of duration $T$. The regret guarantees hold for both the cases where the number of users is greater than or less than the number of channels. The algorithm is extended to the dynamic case where the number of users in the system evolves over time, and is shown to lead to sub-linear regret.


翻译:多用户多武装盗匪框架被用于为不协调的频谱访问开发算法。 与先前的工作不同, 假设奖励可以是非零的, 即使在碰撞中也可以是非零的, 从而使得用户数量大于频道数量。 提议的算法包括一个估算阶段和一个分配阶段。 显示如果每个用户都采用算法, 整个系统的遗憾是整个系统在一段时段内以美元( log T) 的顺序最优。 遗憾保证了用户数量大于或少于频道数量的情况。 算法扩展至系统用户数量随时间变化的动态案例, 并显示导致亚线性遗憾 。

1
下载
关闭预览

相关内容

专知会员服务
124+阅读 · 2020年9月8日
专知会员服务
40+阅读 · 2020年9月6日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
已删除
将门创投
7+阅读 · 2018年12月12日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
已删除
将门创投
7+阅读 · 2018年12月12日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员