Offline policy learning (OPL) leverages existing data collected a priori for policy optimization without any active exploration. Despite the prevalence and recent interest in this problem, its theoretical and algorithmic foundations in function approximation settings remain under-developed. In this paper, we consider this problem on the axes of distributional shift, optimization, and generalization in offline contextual bandits with neural networks. In particular, we propose a provably efficient offline contextual bandit with neural network function approximation that does not require any functional assumption on the reward. We show that our method provably generalizes over unseen contexts under a milder condition for distributional shift than the existing OPL works. Notably, unlike any other OPL method, our method learns from the offline data in an online manner using stochastic gradient descent, allowing us to leverage the benefits of online learning into an offline setting. Moreover, we show that our method is more computationally efficient and has a better dependence on the effective dimension of the neural network than an online counterpart. Finally, we demonstrate the empirical effectiveness of our method in a range of synthetic and real-world OPL problems.


翻译:离线政策学习(OPL)在没有任何积极探索的情况下,利用了为政策优化而事先收集的现有数据,而没有进行任何积极的探索。尽管这个问题很普遍,而且最近对此问题很感兴趣,但其在功能近似环境中的理论和算法基础仍然发展不足。在本文中,我们考虑了在分布转移、优化和神经网络离线背景强盗的轴心上的问题。特别是,我们建议了一种效率高的离线背景强盗,其神经网络功能近似不需要任何功能上的假设。我们表明,我们的方法在比现有的OPL工作更温和的分布转移条件下,对看不见的环境进行了广泛概括。值得注意的是,与其它OPL方法不同,我们的方法以在线方式学习离线数据,使用随机梯度梯度梯度下降法,使我们能够将在线学习的好处运用到离线环境中。此外,我们表明,我们的方法比在线对神经网络的有效层面比对在线对应方更具有更高的计算效率。最后,我们展示了我们方法在合成和实际世界OPL问题范围内的经验效力。

0
下载
关闭预览

相关内容

【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
221+阅读 · 2020年6月5日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
雪球
6+阅读 · 2018年8月19日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
雪球
6+阅读 · 2018年8月19日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员