中国首次!运筹学顶级奖项瓦格奖结果出炉,滴滴用强化学习派单获奖!

2019 年 10 月 25 日 新智元



  新智元报道  

来源:中国网

编辑:元子

【新智元导读】滴滴因为用reinforcement learning学习半马尔科夫决策过程,并用于派单,获得世界顶级奖项运筹学会(INFORMS)瓦格纳奖,成为该奖项自创办22年以来,首个获奖的中国企业。新智元 AI 朋友圈与胡郁等AI大咖一起讨论吧~


近日,一家被瓦格纳评审委员称为“不知名”的中国企业“滴滴”,获得了2019年度瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize),轰动了外媒。因为这是该奖项设立至今22年来,首次由中国公司获得!


美国时间10月20-23日,2019年运筹学和管理科学研究协会年会(2019 INFORMS Annual Meeting)在西雅图召开。大会上,滴滴AI Labs团队提出的《基于强化学习的网约车派单解决方案》,在强手林立的入围项目中脱颖而出,成功获奖。


滴滴AI Labs对网约车派单问题进行半马可夫过程建模,提出基于强化学习的泛化决策迭代框架,创新有效的结合了深度强化学习,时间差学习和传统组合优化方法,在确保乘客出行体验的同时进一步提升司机的收入,体现了广泛的应用能力和影响力。



强化学习是马尔科夫决策过程唯一解决方案吗?二者之间有什么关系?


马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。


MDP的得名来自于俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков),以纪念其为马尔可夫链所做的研究。


那么马尔科夫和强化学习之间,有什么关系呢?stackexchange上有人回答了这个问题:


在强化学习(RL)中,要解决的问题被描述为马尔可夫决策过程(MDP)。RL中的理论结果依赖于MDP描述与问题的正确匹配。


如果将你的问题描述为MDP,则RL可能是找到解决方案的良好框架。这并不意味着需要完全描述MDP(所有转换概率),而只是希望可以建立或发现MDP模型。


相反,如果你不能将问题映射到MDP上,则RL背后的理论不能保证任何有用的结果。


影响RL工作状况的一个关键因素是声明应具有马尔可夫属性,即当前状态的值足以确定操作选择后的即时过渡概率和即时奖励。再者,我们不必事先知道它们是什么,只需要这种关系是可靠和稳定的即可。如果不可靠,则可能有一个POMDP;如果不稳定,则可能存在不稳定问题。


在任何一种情况下,如果与更严格定义的MDP的差异足够小,您可能仍然无法使用RL技术或需要对其稍加调整。


RL和MDP之间的一般关系是RL是解决可以表示为MDP的问题的框架。


什么是运筹学和管理科学研究协会和瓦格纳奖?


在运筹学 (OR)、管理科学 (MS) 和商业分析领域,INFORMS是全世界公认的最具影响力的权威学会。学会每年均会颁发瓦格纳运筹学杰出实践奖,是该领域的世界级顶级奖项之一。


瓦格纳奖设立于1998年,旨在表彰在运筹学研究实践方面做出突破性的杰出成果。该奖项注重的是项目分析的质量和连贯性,解决方案的独创性和数学应用,以及成功的实践,每年获奖项目被认为是代表了运筹学领域内的最前沿应用。


以往获奖都是国外机构,例如康奈尔大学、佐治亚理工学院、美国疾病控制与预防中心、福特汽车、麻省理工学院、杜克大学、智利大学、英特尔、IBM和普林斯顿大学等。今年首次由中国公司获奖。


参考来源:

https://t.cj.sina.com.cn/articles/view/3164957712/bca56c1002000yvui


登录查看更多
0

相关内容

The science of better.
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
27+阅读 · 2020年5月25日
【强化学习】深度强化学习初学者指南
专知会员服务
180+阅读 · 2019年12月14日
2018年中国供应链金融行业研究报告
艾瑞咨询
7+阅读 · 2018年11月20日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
18+阅读 · 2017年12月22日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
7+阅读 · 2018年12月26日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
5+阅读 · 2018年5月28日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
相关资讯
2018年中国供应链金融行业研究报告
艾瑞咨询
7+阅读 · 2018年11月20日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
18+阅读 · 2017年12月22日
相关论文
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
7+阅读 · 2018年12月26日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
5+阅读 · 2018年5月28日
Arxiv
11+阅读 · 2018年4月25日
Top
微信扫码咨询专知VIP会员