We design decentralized algorithms for regret minimization in the two-sided matching market with one-sided bandit feedback that significantly improves upon the prior works (Liu et al. 2020a, 2020b, Sankararaman et al. 2020). First, for general markets, for any $\varepsilon > 0$, we design an algorithm that achieves a $O(\log^{1+\varepsilon}(T))$ regret to the agent-optimal stable matching, with unknown time horizon $T$, improving upon the $O(\log^{2}(T))$ regret achieved in (Liu et al. 2020b). Second, we provide the optimal $\Theta(\log(T))$ agent-optimal regret for markets satisfying uniqueness consistency -- markets where leaving participants don't alter the original stable matching. Previously, $\Theta(\log(T))$ regret was achievable (Sankararaman et al. 2020, Liu et al. 2020b) in the much restricted serial dictatorship setting, when all arms have the same preference over the agents. We propose a phase-based algorithm, wherein each phase, besides deleting the globally communicated dominated arms the agents locally delete arms with which they collide often. This local deletion is pivotal in breaking deadlocks arising from rank heterogeneity of agents across arms. We further demonstrate the superiority of our algorithm over existing works through simulations.


翻译:我们设计了一种分散的算法,以便在双面匹配市场中将遗憾降到最低,同时提供单面的土匪反馈,大大改进了先前工程(Liu等人,2020年a、2020年b、Sankararaman等人,2020年b)的成绩。 首先,我们设计了一种分散的算法,在双面匹配市场中将遗憾降到最低,在单面匹配市场中,单面的土匪反馈大大改进(Liu等人,2020年b)。第二,我们为一般市场提供了最佳的美元(Liu等人,2020年a,2020年b)的代理-最佳遗憾,以达到独一美元 > 0美元。首先,我们设计了一种总市场,让参与者无法改变原有的稳定匹配值的市场。前,美元(theta(log)(log)美元)对代理最优化的稳定匹配值(Sankararaman等人,2020年,Li等人,2020年b)感到遗憾,在非常受限制的连续专制的设置中,所有武器都比代理人更喜欢(Liu等人,2020年b)在(Liu and the gro developmental) strate stration) strutislock stratestrate strutes besuders

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
LibRec 每周精选:近期推荐系统论文及进展
机器学习研究会
4+阅读 · 2018年2月5日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年10月18日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
LibRec 每周精选:近期推荐系统论文及进展
机器学习研究会
4+阅读 · 2018年2月5日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Top
微信扫码咨询专知VIP会员