在线公平收入最大化蛋糕司与反对称强盗中非相连接的碎片 (Online Fair Revenue Maximizing Cake Division with Non-Contiguous Pieces in Adversarial Bandits) - 专知论文

会员服务 ·

0

赌博机/老虎机 · Facebook AI Research · MoDELS · 学成 · TOOLS ·

2021 年 11 月 29 日

Online Fair Revenue Maximizing Cake Division with Non-Contiguous Pieces in Adversarial Bandits

翻译：在线公平收入最大化蛋糕司与反对称强盗中非相连接的碎片

Mohammad Ghodsi,Amirmahdi Mirfakhar

The classic cake-cutting problem provides a model for addressing the fair and efficient allocation of a divisible, heterogeneous resource among agents with distinct preferences. Focusing on a standard formulation of cake cutting, in which each agent must receive a contiguous piece of the cake in an offline setting, this work instead focuses on online allocating non-contiguous pieces of cake among agents and establishes algorithmic results for fairness measures. In this regard, we made use of classic adversarial multi-armed bandits to achieve sub-linear Fairness and Revenue Regret at the same time. Adversarial bandits are powerful tools to model the adversarial reinforcement learning environments, that provide strong upper-bounds for regret of learning with just observing one action's reward in each step by applying smart trade-off between exploration and exploitation. This work studies the power of the famous EXP_3 algorithm that is based on exponential wight{-}importance updating probability distribution through time horizon.

翻译：典型的切蛋糕问题为解决在具有不同偏好的代理人之间公平和高效地分配一种可分化、多样化的资源提供了一个模式。这项工作侧重于一个标准的切蛋糕配方,每个代理人必须在离线环境中获得蛋糕的一块毗连部分,而侧重于在线在代理人之间分配不连的蛋糕配方,并为公平措施确立算法结果。在这方面,我们同时利用了传统的对抗性多武装强盗实现亚线性和收入累累。对抗性强盗是模拟对抗性强化学习环境的强大工具,为学习学习提供了强大的上层优势,为学习提供了遗憾,通过在勘探和开采之间应用聪明的权衡,在每一步骤中只观察一个行动奖励。这项工作研究了著名的EXP_3算法的力量,它基于指数的重量和进口在时间跨度上更新概率分布。

0

相关内容

赌博机/老虎机

赌博机/老虎机

《数据库管理系统的内存高效搜索树》，CMU博士、姚班助理教授张焕晨获SIGMOD Jim Gray博士论文奖

专知会员服务

8+阅读 · 2021年5月21日

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

专知会员服务

38+阅读 · 2020年5月30日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

以自我为中心的视觉分析综述（Analysis of the hands in egocentric vision: A survey）

以自我为中心的视觉分析综述（Analysis of the hands in egocentric vision: A survey）

专知会员服务

5+阅读 · 2019年12月25日

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

专知会员服务

79+阅读 · 2019年11月23日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

LibRec 精选：如何评估交互式推荐系统？

LibRec 精选：如何评估交互式推荐系统？

LibRec智能推荐

8+阅读 · 2019年5月5日

LibRec 精选：近期15篇推荐系统论文

LibRec 精选：近期15篇推荐系统论文

LibRec智能推荐

5+阅读 · 2019年3月5日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Neural Collaborative Filtering Bandits via Meta Learning

Arxiv

0+阅读 · 2022年1月31日

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

Arxiv

0+阅读 · 2022年1月31日

Fair Division of Goods in the Shadow of Market Values

Arxiv

0+阅读 · 2022年1月31日

Offline Meta-Reinforcement Learning with Online Self-Supervision

Arxiv

1+阅读 · 2022年1月31日

Coordinated Attacks against Contextual Bandits: Fundamental Limits and Defense Mechanisms

Arxiv

0+阅读 · 2022年1月30日

Maximizing Marginal Fairness for Dynamic Learning to Rank

Arxiv

7+阅读 · 2021年2月18日

Exploration in Online Advertising Systems with Deep Uncertainty-Aware Learning

Arxiv

6+阅读 · 2020年11月25日

Learning to Infer User Hidden States for Online Sequential Advertising

Arxiv

9+阅读 · 2020年9月3日

FairRec: Two-Sided Fairness for Personalized Recommendations in Two-Sided Platforms

Arxiv

6+阅读 · 2020年2月25日

Stable Distribution Alignment Using the Dual of the Adversarial Distance

Arxiv

3+阅读 · 2018年1月30日

VIP会员

文章信息

相关主题

赌博机/老虎机

Facebook AI Research

相关VIP内容

《数据库管理系统的内存高效搜索树》，CMU博士、姚班助理教授张焕晨获SIGMOD Jim Gray博士论文奖

专知会员服务

8+阅读 · 2021年5月21日

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

专知会员服务

38+阅读 · 2020年5月30日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

以自我为中心的视觉分析综述（Analysis of the hands in egocentric vision: A survey）

以自我为中心的视觉分析综述（Analysis of the hands in egocentric vision: A survey）

专知会员服务

5+阅读 · 2019年12月25日

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

专知会员服务

79+阅读 · 2019年11月23日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

《多体环境下定位导航授时（PNT）系统研究》228页

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

相关资讯

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

LibRec 精选：如何评估交互式推荐系统？

LibRec 精选：如何评估交互式推荐系统？

LibRec智能推荐

8+阅读 · 2019年5月5日

LibRec 精选：近期15篇推荐系统论文

LibRec 精选：近期15篇推荐系统论文

LibRec智能推荐

5+阅读 · 2019年3月5日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Neural Collaborative Filtering Bandits via Meta Learning

Arxiv

0+阅读 · 2022年1月31日

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

Arxiv

0+阅读 · 2022年1月31日

Fair Division of Goods in the Shadow of Market Values

Arxiv

0+阅读 · 2022年1月31日

Offline Meta-Reinforcement Learning with Online Self-Supervision

Arxiv

1+阅读 · 2022年1月31日

Coordinated Attacks against Contextual Bandits: Fundamental Limits and Defense Mechanisms

Arxiv

0+阅读 · 2022年1月30日

Maximizing Marginal Fairness for Dynamic Learning to Rank

Arxiv

7+阅读 · 2021年2月18日

Exploration in Online Advertising Systems with Deep Uncertainty-Aware Learning

Arxiv

6+阅读 · 2020年11月25日

Learning to Infer User Hidden States for Online Sequential Advertising

Arxiv

9+阅读 · 2020年9月3日

FairRec: Two-Sided Fairness for Personalized Recommendations in Two-Sided Platforms

Arxiv

6+阅读 · 2020年2月25日

Stable Distribution Alignment Using the Dual of the Adversarial Distance

Arxiv

3+阅读 · 2018年1月30日

微信扫码咨询专知VIP会员