Di Live | 顶会顶刊分享系列:
5月9日(周六)中午14点,滴滴 AI Labs专家算法工程师唐小程为大家带来 KDD CUP 2020滴滴赛题全览——教你如何在共享出行平台上派单和调度。
此外,我们还邀请到了滴滴 AI Labs专家研究员李卿阳,为大家带来WWW 2020论文解读——探索资源约束的 Contextual Bandits 问题。
01
课程预告
本期「Di Live」邀请到滴滴 AI Labs专家算法工程师唐小程为大家带来 KDD CUP 2020滴滴赛题全览——教你如何在共享出行平台上派单和调度。
此外,我们还邀请到了滴滴 AI Labs专家研究员李卿阳,为大家带来WWW 2020论文解读——探索资源约束的 Contextual Bandits 问题。
Contextual bandits (CB) 因为强大的序列决策能力,已经被广泛的应到推荐系统和广告优化中。在现实世界的应用中,在线学习的成本往往是比较高的,一个折中的方案是给策略的学习设定一个探索资源的约束。所以这个问题转变成如何在固定的探索资源预算约束下,去平衡 exploration(探索)和 exploitation(挖掘)的问题。
本文提出了一种层次化结构的优化方法,达到资源分配策略和个性化推荐策略同时优化的目的。该方法在 Yahoo 的广告数据上得到了验证,并且在理论上证明了 regret bound 是 O(√T)。
本次分享的具体内容为:
强化学习 Contextual Bandits 背景介绍
基于层次自适应的 Contextual Bandits 方法
累积遗憾(Cumulative Regret)分析
实验结果验证
方法总结
02
嘉宾介绍
唐小程
滴滴AI Labs专家算法工程师
唐小程博士,滴滴AI Labs/美国研究院专家算法工程师,美国理海大学优化运筹学博士学位,曾先后就职于 IBM Watson,硅谷雅虎 Labs,初创公司 Pivotal Software。
李卿阳
滴滴AI Labs专家研究员
李卿阳博士,滴滴 AI Labs/美国研究院专家研究科学家。 致力于网约车交易平台的供需策略优化。博士毕业于美国亚利桑那州立大学,拥有计算机博士学位,本科毕业于北京航空航天大学计算机专业。
03
活动报名
扫码添加DataFun小助手,回复“DiDi”,预约直播及回放:
04
精美礼品
每位嘉宾分享结束后,将从提问和填写问卷的同学中随机选取5位小伙伴分别获得20元滴滴快车充值卡一张,还有机会获得桔园精美U盘。欢迎同学们积极参与!
关于我们:
一个在看,一段时光!👇