In this paper, we consider an online optimization problem over $T$ rounds where at each step $t\in[T]$, the algorithm chooses an action $x_t$ from the fixed convex and compact domain set $\mathcal{K}$. A utility function $f_t(\cdot)$ is then revealed and the algorithm receives the payoff $f_t(x_t)$. This problem has been previously studied under the assumption that the utilities are adversarially chosen monotone DR-submodular functions and $\mathcal{O}(\sqrt{T})$ regret bounds have been derived. We first characterize the class of strongly DR-submodular functions and then, we derive regret bounds for the following new online settings: $(1)$ $\{f_t\}_{t=1}^T$ are monotone strongly DR-submodular and chosen adversarially, $(2)$ $\{f_t\}_{t=1}^T$ are monotone submodular (while the average $\frac{1}{T}\sum_{t=1}^T f_t$ is strongly DR-submodular) and chosen by an adversary but they arrive in a uniformly random order, $(3)$ $\{f_t\}_{t=1}^T$ are drawn i.i.d. from some unknown distribution $f_t\sim \mathcal{D}$ where the expected function $f(\cdot)=\mathbb{E}_{f_t\sim\mathcal{D}}[f_t(\cdot)]$ is monotone DR-submodular. For $(1)$, we obtain the first logarithmic regret bounds. In terms of the second framework, we show that it is possible to obtain similar logarithmic bounds with high probability. Finally, for the i.i.d. model, we provide algorithms with $\tilde{\mathcal{O}}(\sqrt{T})$ stochastic regret bound, both in expectation and with high probability. Experimental results demonstrate that our algorithms outperform the previous techniques in the aforementioned three settings.


翻译:在本文中, 我们考虑了一个在线优化问题, 超过$T 圆圈 。 在这样的假设下, 每个步骤 $[T], 算法从固定的 convex 和压缩域选择一个动作 $x_ t$, 设置为$\ mathcal{K} 美元。 一个工具函数 $f_ t (cdot), 然后算法得到 $f_ t (x_ t) 的支付 。 这个问题在以下假设下已经研究 : 公共事业是对抗性地选择的 单调 DR- subdal 函数和 $\ mathal{O} (sqqrt{t{t} 从固定的 固定域域域中选择一个动作 $xxx_ t$_ axxx=modal_ a modral_ demodal_ tamodral_ a model.

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
25+阅读 · 2021年4月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
已删除
将门创投
4+阅读 · 2019年6月5日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
4+阅读 · 2021年7月1日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年6月5日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员