We study online learning with bandit feedback (i.e. learner has access to only zeroth-order oracle) where cost/reward functions $\f_t$ admit a "pseudo-1d" structure, i.e. $\f_t(\w) = \loss_t(\pred_t(\w))$ where the output of $\pred_t$ is one-dimensional. At each round, the learner observes context $\x_t$, plays prediction $\pred_t(\w_t; \x_t)$ (e.g. $\pred_t(\cdot)=\langle \x_t, \cdot\rangle$) for some $\w_t \in \mathbb{R}^d$ and observes loss $\loss_t(\pred_t(\w_t))$ where $\loss_t$ is a convex Lipschitz-continuous function. The goal is to minimize the standard regret metric. This pseudo-1d bandit convex optimization problem (\SBCO) arises frequently in domains such as online decision-making or parameter-tuning in large systems. For this problem, we first show a lower bound of $\min(\sqrt{dT}, T^{3/4})$ for the regret of any algorithm, where $T$ is the number of rounds. We propose a new algorithm \sbcalg that combines randomized online gradient descent with a kernelized exponential weights method to exploit the pseudo-1d structure effectively, guaranteeing the {\em optimal} regret bound mentioned above, up to additional logarithmic factors. In contrast, applying state-of-the-art online convex optimization methods leads to $\tilde{O}\left(\min\left(d^{9.5}\sqrt{T},\sqrt{d}T^{3/4}\right)\right)$ regret, that is significantly suboptimal in $d$.


翻译:我们用土匪的反馈( 即: 学习者只能访问 { little_ t$ ) 进行在线学习, 其中成本/ 奖励函数 $\ f_ t$ 接受一个“ susedo-1d” 结构, 即$\ f_ t (w) =\ loss_ t( pred_ t (w) ) 美元, 其中$ pred_ t$ 是一维的。 在每回合中, 学习者观察背景 $\ x_ t$, 预测 $pred_ t (w_ t), 运行成本/ right_ t;\ x_ t (cd) 美元, 运行成本/ right_ t (c) right_ t_ t) 。 目标是最大限度地降低Orald_ t_ tral_ tral_ t; 运行一个更低的系统, 运行一个更低的 IMLA 。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
104+阅读 · 2020年10月5日
【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
40+阅读 · 2020年7月23日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
已删除
将门创投
5+阅读 · 2019年3月29日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
104+阅读 · 2020年10月5日
【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
40+阅读 · 2020年7月23日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
5+阅读 · 2019年3月29日
Top
微信扫码咨询专知VIP会员