直播预告 | 滴滴AI Labs:探索资源约束的Contextual Bandits问题

2020 年 5 月 9 日 PaperWeekly


「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。
Contextual bandits (CB) 因为强大的序列决策能力,已经被广泛的应到推荐系统和广告优化中。

在现实世界的应用中,在线学习的成本往往是比较高的,一个折中的方案是给策略的学习设定一个探索资源的约束。所以这个问题转变成如何在固定的探索资源预算约束下,去平衡 exploration(探索)和 exploitation(挖掘)的问题。

本文提出了一种层次化结构的优化方法,达到资源分配策略和个性化推荐策略同时优化的目的。该方法在 Yahoo 的广告数据上得到了验证,并且在理论上证明了 regret bound 是  


本期 PW Live,我们邀请到滴滴 AI Labs / 美国研究院专家研究科学家李卿阳,为大家带来探索资源约束的 Contextual Bandits 问题的主题分享。


等等!以为这就完了?还有干货分享!近期 KDD Cup 2020 & 滴滴在 biendata 竞赛平台开展了强化学习挑战赛,邀请全球算法高手共同挑战共享出行领域优化难题。本期还邀请到滴滴 AI Lab(人工智能实验室)专家算法工程师唐小程为大家带来 KDD CUP 学习如何在共享出行平台上派单和调度的主题分享。


对本期主题感兴趣的小伙伴,5 月 9 日(周六)下午 2 点,我们准时相约 PaperWeekly B 站直播间。




分享提纲




本文提出了一种层次化结构的优化方法,达到资源分配策略和个性化推荐策略同时优化的目的。该方法在 Yahoo 的广告数据上得到了验证,并且在理论上证明了 regret bound 是  

本次分享的具体内容有:

  • 强化学习 Contextual Bandits 背景介绍

  • 基于层次自适应的 Contextual Bandits 方法

  • 累积遗憾(Cumulative Regret)分析

  • 实验结果验证

  • 方法总结


嘉宾介绍



 李卿阳  / 滴滴AI Labs专家研究科学家  


李卿阳博士,滴滴 AI Labs/美国研究院专家研究科学家。 致力于网约车交易平台的供需策略优化。博士毕业于美国亚利桑那州立大学,拥有计算机博士学位,本科毕业于北京航空航天大学计算机专业。

 唐小程  / 滴滴AI Labs专家算法工程师  

唐小程博士,滴滴AI Labs(人工智能实验室)专家算法工程师 ,美国理海大学优化运筹学博士学位,曾先后就职于 IBM Watson,硅谷雅虎 Labs,初创公司 Pivotal Software。


直播地址 & 交流群




本次直播将在 PaperWeekly B 站直播间进行,扫描下方海报二维码点击阅读原文即可免费观看。线上分享结束后,嘉宾还将在直播交流群内实时 QA,在 PaperWeekly 微信公众号后台回复「PW Live」,即可获取入群通道


B 站直播间:

https://live.bilibili.com/14884511




合作伙伴






🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
2

相关内容

【ACL2020】多模态信息抽取,365页ppt
专知会员服务
143+阅读 · 2020年7月6日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
从场景到调参,爱奇艺的推荐算法演化之路
聊聊架构
9+阅读 · 2018年3月23日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
9+阅读 · 2018年4月20日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员