A recurring theme in statistical learning, online learning, and beyond is that faster convergence rates are possible for problems with low noise, often quantified by the performance of the best hypothesis; such results are known as first-order or small-loss guarantees. While first-order guarantees are relatively well understood in statistical and online learning, adapting to low noise in contextual bandits (and more broadly, decision making) presents major algorithmic challenges. In a COLT 2017 open problem, Agarwal, Krishnamurthy, Langford, Luo, and Schapire asked whether first-order guarantees are even possible for contextual bandits and -- if so -- whether they can be attained by efficient algorithms. We give a resolution to this question by providing an optimal and efficient reduction from contextual bandits to online regression with the logarithmic (or, cross-entropy) loss. Our algorithm is simple and practical, readily accommodates rich function classes, and requires no distributional assumptions beyond realizability. In a large-scale empirical evaluation, we find that our approach typically outperforms comparable non-first-order methods. On the technical side, we show that the logarithmic loss and an information-theoretic quantity called the triangular discrimination play a fundamental role in obtaining first-order guarantees, and we combine this observation with new refinements to the regression oracle reduction framework of Foster and Rakhlin. The use of triangular discrimination yields novel results even for the classical statistical learning model, and we anticipate that it will find broader use.


翻译:在统计学习、在线学习和以后,一个反复出现的主题是,对于低噪音问题,有可能采用更快的趋同率,通常以最佳假设的表现加以量化;这类结果被称为第一阶或小额亏损保证。虽然在统计和在线学习中相对理解第一阶保障,但在统计和在线学习中,适应背景强盗(更广泛地说,决策)低噪音会带来重大的算法挑战。在2017年COLT公开问题中,Agarwal、Krishnammurthy、Langford、Loo和Schapire问,对于背景强盗来说,是否甚至有可能采用更为广泛的第一阶保障,如果如此,它们能否通过高效的算法实现。我们通过提供从背景强盗到在线回归的最佳和高效的减少,在对逻辑(或跨物种)损失方面,我们相对比较的保障相对简单而实用,很容易适应功能丰富的课程,并且不要求任何超出真实性的分配假设。在大规模经验评估中,我们发现,我们的方法通常会超越类似非一阶方法。在技术方面,我们展示了一种对正轨损失和三角结构上的歧视,我们开始的排序的观察结果。我们展示了一种理解,也就是的排序后,我们把一个基础的排序和三角结构上,我们学习结果的递减压结果和后,我们把一个基础的递化的递化的递化的递减学后演算结果的后演化和后期的演进结果称为的后期的演进结果称为成了了我们。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
161+阅读 · 2020年1月16日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Parameterizing and Simulating from Causal Models
Arxiv
0+阅读 · 2021年9月8日
Arxiv
0+阅读 · 2021年9月6日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
161+阅读 · 2020年1月16日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Top
微信扫码咨询专知VIP会员