多武装反战略复制多武装强盗算法 (Multi-armed Bandit Algorithm against Strategic Replication) - 专知论文

会员服务 ·

0

赌博机/老虎机 · AIM · 稳健性 · 线性的 · ARM ·

2021 年 10 月 23 日

Multi-armed Bandit Algorithm against Strategic Replication

翻译：多武装反战略复制多武装强盗算法

Suho Shin,Seungjoon Lee,Jungseul Ok

We consider a multi-armed bandit problem in which a set of arms is registered by each agent, and the agent receives reward when its arm is selected. An agent might strategically submit more arms with replications, which can bring more reward by abusing the bandit algorithm's exploration-exploitation balance. Our analysis reveals that a standard algorithm indeed fails at preventing replication and suffers from linear regret in time $T$. We aim to design a bandit algorithm which demotivates replications and also achieves a small cumulative regret. We devise Hierarchical UCB (H-UCB) of replication-proof, which has $O(\ln T)$-regret under any equilibrium. We further propose Robust Hierarchical UCB (RH-UCB) which has a sublinear regret even in a realistic scenario with irrational agents replicating careless. We verify our theoretical findings through numerical experiments.

翻译：我们的分析表明,标准算法在防止复制方面确实失败,在时间上遭受线性遗憾$T美元。我们的目标是设计一种使复制活动失去动力并取得少量累积遗憾的土匪算法。我们设计了防复制的等级性UCB(H-UCB)系统,在任何平衡下都拥有$(n)T(regret)值。我们进一步提议使用强势高射级UCB(RH-UCB)系统(RH-UCB)系统(RH-UCB)系统(UCB-UCB)系统,该系统在现实情况下甚至与不理性的代理进行复制时,也会产生亚线性遗憾。我们通过数字实验来验证我们的理论结论。

0

相关内容

赌博机/老虎机

赌博机/老虎机

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

26+阅读 · 2021年6月25日

ICLR 2021杰出论文奖出炉，8篇论文上榜！

专知会员服务

26+阅读 · 2021年4月2日

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

已删除

将门创投

18+阅读 · 2019年2月18日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Decentralized Task Offloading in Edge Computing: A Multi-User Multi-Armed Bandit Approach

Arxiv

0+阅读 · 2021年12月22日

Subtrajectory Clustering: Finding Set Covers for Set Systems of Subcurves

Arxiv

0+阅读 · 2021年12月22日

Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization

Arxiv

0+阅读 · 2021年12月21日

Improved Efficiency for Cross-Arm Comparisons via Platform Designs

Arxiv

0+阅读 · 2021年12月21日

The Representation Jensen-Rényi Divergence

Arxiv

0+阅读 · 2021年12月21日

Quantum Circuit Transformations with a Multi-Level Intermediate Representation Compiler

Arxiv

0+阅读 · 2021年12月20日

Distributed Non-Convex Optimization with Sublinear Speedup under Intermittent Client Availability

Arxiv

11+阅读 · 2020年2月18日

Learning Disentangled Representations for Recommendation

Learning Disentangled Representations for Recommendation

Arxiv

8+阅读 · 2019年10月31日

Multi-scale Location-aware Kernel Representation for Object Detection

Arxiv

5+阅读 · 2018年4月2日

A three domain covariance framework for EEG/MEG data

Arxiv

3+阅读 · 2014年10月9日

VIP会员

文章信息

相关主题

赌博机/老虎机

相关VIP内容

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

26+阅读 · 2021年6月25日

ICLR 2021杰出论文奖出炉，8篇论文上榜！

专知会员服务

26+阅读 · 2021年4月2日

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【NeurIPS2025】语义提示扩散变换器的像素级精确深度估计

俄乌冲突的地缘政治与军事教训（万字长文）

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

量子增强计算机视觉：超越经典算法

相关资讯

已删除

将门创投

18+阅读 · 2019年2月18日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Decentralized Task Offloading in Edge Computing: A Multi-User Multi-Armed Bandit Approach

Arxiv

0+阅读 · 2021年12月22日

Subtrajectory Clustering: Finding Set Covers for Set Systems of Subcurves

Arxiv

0+阅读 · 2021年12月22日

Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization

Arxiv

0+阅读 · 2021年12月21日

Improved Efficiency for Cross-Arm Comparisons via Platform Designs

Arxiv

0+阅读 · 2021年12月21日

The Representation Jensen-Rényi Divergence

Arxiv

0+阅读 · 2021年12月21日

Quantum Circuit Transformations with a Multi-Level Intermediate Representation Compiler

Arxiv

0+阅读 · 2021年12月20日

Distributed Non-Convex Optimization with Sublinear Speedup under Intermittent Client Availability

Arxiv

11+阅读 · 2020年2月18日

Learning Disentangled Representations for Recommendation

Learning Disentangled Representations for Recommendation

Arxiv

8+阅读 · 2019年10月31日

Multi-scale Location-aware Kernel Representation for Object Detection

Arxiv

5+阅读 · 2018年4月2日

A three domain covariance framework for EEG/MEG data

Arxiv

3+阅读 · 2014年10月9日

微信扫码咨询专知VIP会员