Online eXp-concave Optimization (OXO) is a fundamental problem in online learning. The standard algorithm, Online Newton Step (ONS), balances statistical optimality and computational practicality, guaranteeing an optimal regret of $O(d \log T)$, where $d$ is the dimension and $T$ is the time horizon. ONS faces a computational bottleneck due to the Mahalanobis projections at each round. This step costs $Ω(d^ω)$ arithmetic operations for bounded domains, even for the unit ball, where $ω\in (2,3]$ is the matrix-multiplication exponent. As a result, the total runtime can reach $\tilde{O}(d^ωT)$, particularly when iterates frequently oscillate near the domain boundary. For Stochastic eXp-concave Optimization (SXO), computational cost is also a challenge. Deploying ONS with online-to-batch conversion for SXO requires $T = \tilde{O}(d/ε)$ rounds to achieve an excess risk of $ε$, and thereby necessitates an $\tilde{O}(d^{ω+1}/ε)$ runtime. A COLT'13 open problem posed by Koren [2013] asks for an SXO algorithm with runtime less than $\tilde{O}(d^{ω+1}/ε)$. This paper proposes a simple variant of ONS, LightONS, which reduces the total runtime to $O(d^2 T + d^ω\sqrt{T \log T})$ while preserving the optimal $O(d \log T)$ regret. LightONS implies an SXO method with runtime $\tilde{O}(d^3/ε)$, thereby answering the open problem. Importantly, LightONS preserves the elegant structure of ONS by leveraging domain-conversion techniques from parameter-free online learning to introduce a hysteresis mechanism that delays expensive Mahalanobis projections until necessary. This design enables LightONS to serve as an efficient plug-in replacement of ONS in broader scenarios, even beyond regret minimization, including gradient-norm adaptive regret, parametric stochastic bandits, and memory-efficient online learning.


翻译:在线指数凹优化(OXO)是在线学习中的一个基本问题。标准算法在线牛顿步(ONS)在统计最优性与计算实用性之间取得了平衡,保证了最优遗憾界$O(d \log T)$,其中$d$为维度,$T$为时间范围。ONS面临一个计算瓶颈,即每轮所需的马氏投影。即使对于单位球等有界域,该步骤也需要$Ω(d^ω)$次算术运算,其中$ω\in (2,3]$为矩阵乘法指数。因此,当迭代点频繁在域边界附近振荡时,总运行时间可能达到$\tilde{O}(d^ωT)$。对于随机指数凹优化(SXO),计算成本同样是一个挑战。采用在线到批量转换的ONS处理SXO需要$T = \tilde{O}(d/ε)$轮才能达到$ε$的超额风险,从而需要$\tilde{O}(d^{ω+1}/ε)$的运行时间。Koren [2013]在COLT'13上提出的一个开放问题要求设计运行时间低于$\tilde{O}(d^{ω+1}/ε)$的SXO算法。本文提出了一种简单的ONS变体LightONS,在保持最优$O(d \log T)$遗憾的同时,将总运行时间降低至$O(d^2 T + d^ω\sqrt{T \log T})$。LightONS意味着一种运行时间为$\tilde{O}(d^3/ε)$的SXO方法,从而解决了该开放问题。重要的是,LightONS通过利用无参数在线学习中的域转换技术引入滞后机制,将昂贵的马氏投影延迟至必要时执行,从而保留了ONS的优雅结构。这一设计使得LightONS能够在更广泛的场景中(甚至超越遗憾最小化,包括梯度范数自适应遗憾、参数化随机赌博机以及内存高效的在线学习)作为ONS的高效即插即用替代方案。

0
下载
关闭预览

相关内容

【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence
专知会员服务
36+阅读 · 2024年11月11日
【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Why Smooth Stability Assumptions Fail for ReLU Learning
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员