We study the problem of dynamic batch learning in high-dimensional sparse linear contextual bandits, where a decision maker can only adapt decisions at a batch level. In particular, the decision maker, only observing rewards at the end of each batch, dynamically decides how many individuals to include in the next batch (at the current batch's end) and what personalized action-selection scheme to adopt within the batch. Such batch constraints are ubiquitous in a variety of practical contexts, including personalized product offerings in marketing and medical treatment selection in clinical trials. We characterize the fundamental learning limit in this problem via a novel lower bound analysis and provide a simple, exploration-free algorithm that uses the LASSO estimator, which achieves the minimax optimal performance characterized by the lower bound (up to log factors). To our best knowledge, our work provides the first inroad into a rigorous understanding of dynamic batch learning with high-dimensional covariates. We also demonstrate the efficacy of our algorithm on both synthetic data and the Warfarin medical dosing data. The empirical results show that with three batches (hence only two opportunities to adapt), our algorithm already performs comparably (in terms of statistical performance) to the state-of-the-art fully online high-dimensional linear contextual bandits algorithm. As an added bonus, since our algorithm operates in batches, it is orders of magnitudes faster than fully online learning algorithms. As such, our algorithm provides a desirable candidate for practical data-driven personalized decision making problems, where limited adaptivity is often a hard constraint.


翻译:我们研究在高度分散的线性背景土匪中动态批量学习的问题,即决策人只能调整批量一级的决定。特别是,决策者,只观察每批末端的奖励,动态地决定下批(目前批尾端)要包括多少个人,以及批量中要采用什么个性化的行动选择办法。这些批量限制在各种实际环境中普遍存在,包括销售和临床试验中医疗治疗选择中的个人化产品提供。我们通过新颖的较低约束分析来描述这一问题的基本学习限度,并提供一个简单、无探索的算法,使用LASSO的估量器,该算法将实现下批量(目前批尾端)中最优性的表现。根据我们的最佳知识,我们的工作为严格了解动态批量学习与高维度变异性。我们还展示了我们关于合理合成数据和Warfarinal In medicial dos data的算法的功效。实验结果显示,用三批次(因为只有两批次个人的硬度,而使在线的算算法能够完全调整,我们的直线性算的递进进级算数据,因此,我们不断的递化的递进进进进进化的算法的算法是完全的升级的升级的升级的逻辑,我们的一个高级的逻辑要求。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年7月15日
机器学习组合优化
专知会员服务
108+阅读 · 2021年2月16日
专知会员服务
159+阅读 · 2020年1月16日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
A Dataset for Answering Time-Sensitive Questions
Arxiv
0+阅读 · 2021年9月3日
Arxiv
5+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2021年7月15日
机器学习组合优化
专知会员服务
108+阅读 · 2021年2月16日
专知会员服务
159+阅读 · 2020年1月16日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员