带有 Thompson 抽样的基于位置的多功能强盗 (Position-Based Multiple-Play Bandits with Thompson Sampling) - 专知论文

会员服务 ·

0

赌博机/老虎机 · 采样法 · 样本 · Better · state-of-the-art ·

2021 年 2 月 3 日

Position-Based Multiple-Play Bandits with Thompson Sampling

翻译：带有 Thompson 抽样的基于位置的多功能强盗

Camille-Sovanneary Gauthier,Romaric Gaudel,Elisa Fromont

from arxiv, Accepted at IDA 2021

Multiple-play bandits aim at displaying relevant items at relevant positions on a web page. We introduce a new bandit-based algorithm, PB-MHB, for online recommender systems which uses the Thompson sampling framework. This algorithm handles a display setting governed by the position-based model. Our sampling method does not require as input the probability of a user to look at a given position in the web page which is, in practice, very difficult to obtain. Experiments on simulated and real datasets show that our method, with fewer prior information, deliver better recommendations than state-of-the-art algorithms.

翻译：多剧强盗的目的是在网页的相关位置显示相关项目。我们为使用汤普森抽样框架的在线推荐人系统引入了一种新的以盗匪为基础的算法(PB-MHB), 这个算法处理由基于位置的模型制约的显示环境。我们的取样方法并不要求用户在网页上查看某个位置的概率,而实际上,该位置很难获得。模拟和真实数据集实验显示,我们使用比最新算法更好的方法,而先前的信息较少。

0

相关内容

赌博机/老虎机

赌博机/老虎机

【经典书】线性代数，436页pdf

专知会员服务

77+阅读 · 2021年3月16日

2020数据工程师成长路线图

专知会员服务

41+阅读 · 2020年9月6日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

专知会员服务

10+阅读 · 2020年5月14日

【WWW2020】解决推荐系统中目标客户失真问题，Addressing the Target Customer Distortion Problem in Recommender Systems

【WWW2020】解决推荐系统中目标客户失真问题，Addressing the Target Customer Distortion Problem in Recommender Systems

专知会员服务

10+阅读 · 2020年4月4日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

【阿里巴巴-CVPR2020】频域学习，Learning in the Frequency Domain

【阿里巴巴-CVPR2020】频域学习，Learning in the Frequency Domain

专知会员服务

29+阅读 · 2020年3月14日

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

专知会员服务

32+阅读 · 2020年2月24日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

CCF推荐 | 国际会议信息10条

CCF推荐 | 国际会议信息10条

Call4Papers

8+阅读 · 2019年5月27日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

LibRec 精选：推荐系统9个必备数据集

LibRec 精选：推荐系统9个必备数据集

LibRec智能推荐

6+阅读 · 2018年3月7日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec智能推荐

5+阅读 · 2017年6月12日

Submodular Bandit Problem Under Multiple Constraints

Arxiv

0+阅读 · 2021年3月29日

UMAP does not reproduce high-dimensional similarities due to negative sampling

Arxiv

0+阅读 · 2021年3月26日

Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments

Arxiv

0+阅读 · 2021年3月26日

Volumetric Objectives for Multi-Robot Exploration of Three-Dimensional Environments

Arxiv

0+阅读 · 2021年3月26日

Nonstochastic Bandits with Infinitely Many Experts

Arxiv

0+阅读 · 2021年3月26日

Nearly Horizon-Free Offline Reinforcement Learning

Arxiv

0+阅读 · 2021年3月25日

Reinforcement Learning for Test Case Prioritization

Reinforcement Learning for Test Case Prioritization

Arxiv

0+阅读 · 2021年3月25日

Multinomial Logit Contextual Bandits: Provable Optimality and Practicality

Arxiv

0+阅读 · 2021年3月25日

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

Arxiv

5+阅读 · 2020年4月2日

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Arxiv

5+阅读 · 2018年7月23日

VIP会员

文章信息

相关主题

赌博机/老虎机

state-of-the-art

相关VIP内容

【经典书】线性代数，436页pdf

专知会员服务

77+阅读 · 2021年3月16日

2020数据工程师成长路线图

专知会员服务

41+阅读 · 2020年9月6日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

专知会员服务

10+阅读 · 2020年5月14日

【WWW2020】解决推荐系统中目标客户失真问题，Addressing the Target Customer Distortion Problem in Recommender Systems

【WWW2020】解决推荐系统中目标客户失真问题，Addressing the Target Customer Distortion Problem in Recommender Systems

专知会员服务

10+阅读 · 2020年4月4日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

【阿里巴巴-CVPR2020】频域学习，Learning in the Frequency Domain

【阿里巴巴-CVPR2020】频域学习，Learning in the Frequency Domain

专知会员服务

29+阅读 · 2020年3月14日

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

专知会员服务

32+阅读 · 2020年2月24日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《步兵小单元山地严寒作战指南》美军最新条令200页

《联合作战概念的发展》最新报告

俄制无人机弹药

《复杂场景下自主着陆的模型预测控制技术》92页

相关资讯

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

CCF推荐 | 国际会议信息10条

CCF推荐 | 国际会议信息10条

Call4Papers

8+阅读 · 2019年5月27日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

LibRec 精选：推荐系统9个必备数据集

LibRec 精选：推荐系统9个必备数据集

LibRec智能推荐

6+阅读 · 2018年3月7日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec智能推荐

5+阅读 · 2017年6月12日

相关论文

Submodular Bandit Problem Under Multiple Constraints

Arxiv

0+阅读 · 2021年3月29日

UMAP does not reproduce high-dimensional similarities due to negative sampling

Arxiv

0+阅读 · 2021年3月26日

Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments

Arxiv

0+阅读 · 2021年3月26日

Volumetric Objectives for Multi-Robot Exploration of Three-Dimensional Environments

Arxiv

0+阅读 · 2021年3月26日

Nonstochastic Bandits with Infinitely Many Experts

Arxiv

0+阅读 · 2021年3月26日

Nearly Horizon-Free Offline Reinforcement Learning

Arxiv

0+阅读 · 2021年3月25日

Reinforcement Learning for Test Case Prioritization

Reinforcement Learning for Test Case Prioritization

Arxiv

0+阅读 · 2021年3月25日

Multinomial Logit Contextual Bandits: Provable Optimality and Practicality

Arxiv

0+阅读 · 2021年3月25日

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

Arxiv

5+阅读 · 2020年4月2日

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Arxiv

5+阅读 · 2018年7月23日

微信扫码咨询专知VIP会员