We study the $K$-armed contextual dueling bandit problem, a sequential decision making setting in which the learner uses contextual information to make two decisions, but only observes \emph{preference-based feedback} suggesting that one decision was better than the other. We focus on the regret minimization problem under realizability, where the feedback is generated by a pairwise preference matrix that is well-specified by a given function class $\mathcal F$. We provide a new algorithm that achieves the optimal regret rate for a new notion of best response regret, which is a strictly stronger performance measure than those considered in prior works. The algorithm is also computationally efficient, running in polynomial time assuming access to an online oracle for square loss regression over $\mathcal F$. This resolves an open problem of Dud\'ik et al. [2015] on oracle efficient, regret-optimal algorithms for contextual dueling bandits.


翻译:我们研究的是用$K$武装的背景比对土匪问题,这是一种顺序决策环境,学习者在其中使用背景信息作出两项决定,但只观察\ emph{ preview-broad communication}表示一个决定优于另一个决定。我们注重在可变性下最遗憾最小化的问题,即反馈是由一特定功能类别明确指定的双向偏好矩阵生成的。我们提供了一种新的算法,为最佳反应遗憾的新概念达到了最佳遗憾率,这是比先前工作中考虑的更严格的性能衡量尺度。算法还具有计算效率,在假设使用线上奥克莱格来进行折叠式折叠式折叠式折叠式折叠式折叠式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式,这式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式)式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式折式) 。[2015) 。解决式折式折式折式折式折式折式折式折式折式折式

0
下载
关闭预览

相关内容

【经典书】算法C语言实现,Algorithms in C. 672页pdf
专知会员服务
81+阅读 · 2020年8月13日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Measure Estimation in the Barycentric Coding Model
Arxiv
0+阅读 · 2022年1月28日
Arxiv
0+阅读 · 2022年1月26日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Top
微信扫码咨询专知VIP会员