In this paper we prove the efficacy of a simple greedy algorithm for a finite horizon online resource allocation/matching problem, when the corresponding static planning linear program (SPP) exhibits a non-degeneracy condition called the general position gap (GPG). The key intuition that we formalize is that the solution of the reward maximizing SPP is the same as a feasibility LP restricted to the optimal basic activities, and under GPG this solution can be tracked with bounded regret by a greedy algorithm, i.e., without the commonly used technique of periodically resolving the SPP. The goal of the decision maker is to combine resources (from a finite set of resource types) into configurations (from a finite set of feasible configurations) where each configuration is specified by the number of resources consumed of each type and a reward. The resources are further subdivided into three types - offline (whose quantity is known and available at time 0), online-queueable (which arrive online and can be stored in a buffer), and online-nonqueueable (which arrive online and must be matched on arrival or lost). Under GRG we prove that, (i) our greedy algorithm gets bounded any-time regret for matching reward (independent of $t$) when no configuration contains both an online-queueable and an online-nonqueueable resource, and (ii) $\mathcal{O}(\log t)$ expected any-time regret otherwise (we also prove a matching lower bound). By considering the three types of resources, our matching framework encompasses several well-studied problems such as dynamic multi-sided matching, network revenue management, online stochastic packing, and multiclass queueing systems.


翻译:在本文中,当相应的静态规划线性程序(SPP)显示一种非减损性状态时,当相应的静态规划线性程序(SPP)显示一种非减损性条件,称为一般位置差距(GPG)时,我们证明的关键直觉是,奖励最大化SPP的解决方案与限于最佳基本活动的可行性LP相同,在GPG下,这一解决方案可以用贪婪的算法(即没有定期解决SPP的常用方法)来跟踪。决策者的目标是将资源(从有限的资源类型组合)合并成一个非减损性配置(来自有限的可行配置组合的固定组合)。我们正式确认的是,每种配置都由每种类型所消耗的资源和奖赏来确定。资源进一步细分为三种类型 - 离线式(已知数量,在时间上提供 ) 在线可渗透性算(抵达并存储在缓冲中) 和在线不可连接的(在抵达或丢失时必须匹配到的多个直线级(美元) 。 在 GRG (i) 下, 当我们无法证实, 在线的直线性(i) 和直线性(irealalalalalalalal) 等(i) 等(i) (i) (i) ) 和多级(i) ) 和多级) 的配置是, 当我们的资源配置是, 当我们无法 的(证明或直线性) 。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2020年12月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年2月13日
Arxiv
0+阅读 · 2022年2月9日
Arxiv
0+阅读 · 2022年2月9日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关资讯
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员