多任务盗匪通过异质反馈汇总学习 (Multitask Bandit Learning Through Heterogeneous Feedback Aggregation) - 专知论文

会员服务 ·

0

赌博机/老虎机 · 相似度 · 成对型 · 学成 · 情景 ·

2021 年 7 月 20 日

Multitask Bandit Learning Through Heterogeneous Feedback Aggregation

翻译：多任务盗匪通过异质反馈汇总学习

Zhi Wang,Chicheng Zhang,Manish Kumar Singh,Laurel D. Riek,Kamalika Chaudhuri

In many real-world applications, multiple agents seek to learn how to perform highly related yet slightly different tasks in an online bandit learning protocol. We formulate this problem as the $\epsilon$-multi-player multi-armed bandit problem, in which a set of players concurrently interact with a set of arms, and for each arm, the reward distributions for all players are similar but not necessarily identical. We develop an upper confidence bound-based algorithm, RobustAgg$(\epsilon)$, that adaptively aggregates rewards collected by different players. In the setting where an upper bound on the pairwise similarities of reward distributions between players is known, we achieve instance-dependent regret guarantees that depend on the amenability of information sharing across players. We complement these upper bounds with nearly matching lower bounds. In the setting where pairwise similarities are unknown, we provide a lower bound, as well as an algorithm that trades off minimax regret guarantees for adaptivity to unknown similarity structure.

翻译：在许多现实世界应用中, 多个代理商试图学习如何在网上土匪学习协议中执行高度关联但略有不同的任务。我们将此问题表述为$\ epsilon$- multi player 多重武装土匪问题, 其中一组玩家同时与一组武器互动, 对于每只手臂, 所有玩家的奖赏分布相似, 但不一定相同。我们开发了一个基于信任的上限约束算法, RobustAgg$ (\epsilon), 由不同玩家收集的适应性综合奖赏。在已知玩家之间奖赏分配的对等相似之处的环境下, 我们实现依赖实例的遗憾保证, 这取决于玩家共享信息的可性。我们用近乎匹配的较低界限来补充这些上层。在对称相似性未知的环境下, 我们提供了一种较低的界限, 以及一种从微轴悔保证中交换适应性与未知的相似结构的算法。

0

相关内容

赌博机/老虎机

赌博机/老虎机

【ICML2021】基于共享表示的个性化联邦学习

专知会员服务

15+阅读 · 2021年7月21日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

【WWW2021】合作记忆网络的个性化任务导向对话系统

【WWW2021】合作记忆网络的个性化任务导向对话系统

专知会员服务

15+阅读 · 2021年2月17日

AAAI2021 | 图神经网络的异质图结构学习，Heterogeneous Graph Structure Learning for Graph Neural Networks

专知会员服务

92+阅读 · 2021年1月20日

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

专知会员服务

116+阅读 · 2020年2月10日

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

专知会员服务

91+阅读 · 2019年12月16日

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

专知会员服务

26+阅读 · 2019年12月7日

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

专知会员服务

44+阅读 · 2019年11月20日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

分布式并行架构Ray介绍

分布式并行架构Ray介绍

CreateAMind

10+阅读 · 2019年8月9日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

【泡泡一分钟】学习多视图相似度(ICCV-2017)

【泡泡一分钟】学习多视图相似度(ICCV-2017)

泡泡机器人SLAM

10+阅读 · 2018年10月7日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新六篇网络节点表示相关论文—传播网络嵌入、十亿级网络节点表示、综述、属性感知、贝叶斯个性化排序、复杂网络分类

【论文推荐】最新六篇网络节点表示相关论文—传播网络嵌入、十亿级网络节点表示、综述、属性感知、贝叶斯个性化排序、复杂网络分类

专知

5+阅读 · 2018年5月17日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Asymptotic Optimality for Decentralised Bandits

Arxiv

1+阅读 · 2021年9月20日

Optimal Ensemble Construction for Multi-Study Prediction with Applications to COVID-19 Excess Mortality Estimation

Arxiv

0+阅读 · 2021年9月19日

Decentralized Wireless Federated Learning with Differential Privacy

Arxiv

0+阅读 · 2021年9月19日

Dual Behavior Regularized Reinforcement Learning

Arxiv

0+阅读 · 2021年9月19日

Stochastic Games with Disjunctions of Multiple Objectives

Arxiv

0+阅读 · 2021年9月17日

Task-Free Continual Learning

Arxiv

6+阅读 · 2018年12月10日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

Learning Topic Models by Neighborhood Aggregation

Arxiv

3+阅读 · 2018年2月22日

Multiagent Cooperation and Competition with Deep Reinforcement Learning

Arxiv

4+阅读 · 2015年11月27日

VIP会员

文章信息

相关主题

赌博机/老虎机

相关VIP内容

【ICML2021】基于共享表示的个性化联邦学习

专知会员服务

15+阅读 · 2021年7月21日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

【WWW2021】合作记忆网络的个性化任务导向对话系统

【WWW2021】合作记忆网络的个性化任务导向对话系统

专知会员服务

15+阅读 · 2021年2月17日

AAAI2021 | 图神经网络的异质图结构学习，Heterogeneous Graph Structure Learning for Graph Neural Networks

专知会员服务

92+阅读 · 2021年1月20日

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

专知会员服务

116+阅读 · 2020年2月10日

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

专知会员服务

91+阅读 · 2019年12月16日

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

专知会员服务

26+阅读 · 2019年12月7日

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

专知会员服务

44+阅读 · 2019年11月20日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

分布式并行架构Ray介绍

分布式并行架构Ray介绍

CreateAMind

10+阅读 · 2019年8月9日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

【泡泡一分钟】学习多视图相似度(ICCV-2017)

【泡泡一分钟】学习多视图相似度(ICCV-2017)

泡泡机器人SLAM

10+阅读 · 2018年10月7日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新六篇网络节点表示相关论文—传播网络嵌入、十亿级网络节点表示、综述、属性感知、贝叶斯个性化排序、复杂网络分类

【论文推荐】最新六篇网络节点表示相关论文—传播网络嵌入、十亿级网络节点表示、综述、属性感知、贝叶斯个性化排序、复杂网络分类

专知

5+阅读 · 2018年5月17日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Asymptotic Optimality for Decentralised Bandits

Arxiv

1+阅读 · 2021年9月20日

Optimal Ensemble Construction for Multi-Study Prediction with Applications to COVID-19 Excess Mortality Estimation

Arxiv

0+阅读 · 2021年9月19日

Decentralized Wireless Federated Learning with Differential Privacy

Arxiv

0+阅读 · 2021年9月19日

Dual Behavior Regularized Reinforcement Learning

Arxiv

0+阅读 · 2021年9月19日

Stochastic Games with Disjunctions of Multiple Objectives

Arxiv

0+阅读 · 2021年9月17日

Task-Free Continual Learning

Arxiv

6+阅读 · 2018年12月10日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

Learning Topic Models by Neighborhood Aggregation

Arxiv

3+阅读 · 2018年2月22日

Multiagent Cooperation and Competition with Deep Reinforcement Learning

Arxiv

4+阅读 · 2015年11月27日

微信扫码咨询专知VIP会员