We study the online learning with feedback graphs framework introduced by Mannor and Shamir (2011), in which the feedback received by the online learner is specified by a graph $G$ over the available actions. We develop an algorithm that simultaneously achieves regret bounds of the form: $\smash{\mathcal{O}(\sqrt{\theta(G) T})}$ with adversarial losses; $\mathcal{O}(\theta(G)\operatorname{polylog}{T})$ with stochastic losses; and $\mathcal{O}(\theta(G)\operatorname{polylog}{T} + \smash{\sqrt{\theta(G) C})}$ with stochastic losses subject to $C$ adversarial corruptions. Here, $\theta(G)$ is the clique covering number of the graph $G$. Our algorithm is an instantiation of Follow-the-Regularized-Leader with a novel regularization that can be seen as a product of a Tsallis entropy component (inspired by Zimmert and Seldin (2019)) and a Shannon entropy component (analyzed in the corrupted stochastic case by Amir et al. (2020)), thus subtly interpolating between the two forms of entropies. One of our key technical contributions is in establishing the convexity of this regularizer and controlling its inverse Hessian, despite its complex product structure.


翻译:我们用曼诺尔和沙米尔(2011年)推出的反馈图表框架来研究在线学习,曼诺尔和沙米尔(2011年)引入了反馈图框架,其中在线学习者收到的反馈用一张G$G$对可用行动进行指定。我们开发了一种算法,同时实现表格的遗憾界限:$\smash_mathcal{O}(Sqrt=theta(G)T)}(美元),有对抗性亏损;$mathcal{O}(theta(G)\opatorname{polylog_T}),在线学习者收到的反馈用一张G$GG$指定。我们开发了一个算法,它同时实现了表格的遗憾界限:$\smash_sqrt_thalca{(G}}(sqrqrat)} $C$(G), 有对抗性亏损的亏损; $thta}(G) $\(G) 是包含G$G$G$$(G) 的数。 我们的“Regalal-alizal-leard-leder-leard {Oard ” 和“nal” Incal rucal rucal rucal rucal” rucal) 。这可以将一个固定的“20 和“cal” 和“cal” 和“cal ” 的“cal” 和“cal”两个“cal 的“cal”的“cal ”的“cal ” ” 。通过”的“cal 和“cal”的”的“cal”的“cal” 和“cal”的“cal”的“20 ”的” ” ” 的“cal 和“cal ” ”的“cal 和“cal ”的”的“cal 和“cal 和“cal ”的“cal ”的“cal 和“cal ”的”的”的”的”的“Sal 和“Sal 和“cal 和“S”的“S”两个“S”的“S”的“S”

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
26+阅读 · 2020年12月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
107+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
专知会员服务
59+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
Deep Learning & Neural Network 免费学习资源【译】
乐享数据DataScientists
5+阅读 · 2017年8月20日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年9月17日
Arxiv
6+阅读 · 2019年11月14日
Arxiv
7+阅读 · 2018年6月19日
Arxiv
5+阅读 · 2018年4月30日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
26+阅读 · 2020年12月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
107+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
专知会员服务
59+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
Deep Learning & Neural Network 免费学习资源【译】
乐享数据DataScientists
5+阅读 · 2017年8月20日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员