Large-scale, two-sided matching platforms must find market outcomes that align with user preferences while simultaneously learning these preferences from data. However, since preferences are inherently uncertain during learning, the classical notion of stability (Gale and Shapley, 1962; Shapley and Shubik, 1971) is unattainable in these settings. To bridge this gap, we develop a framework and algorithms for learning stable market outcomes under uncertainty. Our primary setting is matching with transferable utilities, where the platform both matches agents and sets monetary transfers between them. We design an incentive-aware learning objective that captures the distance of a market outcome from equilibrium. Using this objective, we analyze the complexity of learning as a function of preference structure, casting learning as a stochastic multi-armed bandit problem. Algorithmically, we show that "optimism in the face of uncertainty," the principle underlying many bandit algorithms, applies to a primal-dual formulation of matching with transfers and leads to near-optimal regret bounds. Our work takes a first step toward elucidating when and how stable matchings arise in large, data-driven marketplaces.


翻译:大型、 双面匹配平台必须找到与用户偏好相一致的市场结果, 同时从数据中学习这些偏好。 但是, 由于偏好在学习期间本质上是不确定的, 传统的稳定性概念( Gale 和 Shapley, 1962; Shapley 和 Shubik, 1971) 在这些环境中是无法实现的。 要弥合这一差距, 我们开发了一个框架和算法, 在不确定性下学习稳定的市场结果。 我们的主要环境是匹配可转让公用事业, 平台既匹配代理商, 也设定它们之间的货币转移。 我们设计了一个有激励意识的学习目标, 捕捉到市场结果与均衡的距离。 我们利用这个目标, 分析学习的复杂性, 将它作为偏好结构的函数, 将学习作为多臂强的多臂强的问题 。 ALgorithmically, 我们显示, “ 面对不确定性时的乐观性, ” 许多带动算法的原则, 适用于最原始的配对转移的配制, 并导致接近最优化的遗憾界限。 我们的工作迈出了第一步, 向在大规模、 数据驱动的市场中 解析 。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
ICML2019机器学习顶会接受论文列表!
专知
10+阅读 · 2019年5月12日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
6+阅读 · 2021年6月24日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月18日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
ICML2019机器学习顶会接受论文列表!
专知
10+阅读 · 2019年5月12日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Arxiv
6+阅读 · 2021年6月24日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月18日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
A Multi-Objective Deep Reinforcement Learning Framework
Top
微信扫码咨询专知VIP会员