中国首次！运筹学顶级奖项瓦格奖结果出炉，滴滴用强化学习派单获奖！

会员服务 ·

中国首次！运筹学顶级奖项瓦格奖结果出炉，滴滴用强化学习派单获奖！

2019 年 10 月 25 日 新智元

新智元报道

来源：中国网

编辑：元子

【新智元导读】滴滴因为用reinforcement learning学习半马尔科夫决策过程，并用于派单，获得世界顶级奖项运筹学会（INFORMS）瓦格纳奖，成为该奖项自创办22年以来，首个获奖的中国企业。来新智元 AI 朋友圈与胡郁等AI大咖一起讨论吧～

近日，一家被瓦格纳评审委员称为“不知名”的中国企业“滴滴”，获得了2019年度瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize)，轰动了外媒。因为这是该奖项设立至今22年来，首次由中国公司获得！

美国时间10月20-23日，2019年运筹学和管理科学研究协会年会(2019 INFORMS Annual Meeting)在西雅图召开。大会上，滴滴AI Labs团队提出的《基于强化学习的网约车派单解决方案》，在强手林立的入围项目中脱颖而出，成功获奖。

滴滴AI Labs对网约车派单问题进行半马可夫过程建模，提出基于强化学习的泛化决策迭代框架，创新有效的结合了深度强化学习，时间差学习和传统组合优化方法，在确保乘客出行体验的同时进一步提升司机的收入，体现了广泛的应用能力和影响力。

强化学习是马尔科夫决策过程唯一解决方案吗？二者之间有什么关系？

马尔可夫决策过程（Markov Decision Process, MDP）是序贯决策（sequential decision）的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。

MDP的得名来自于俄国数学家安德雷·马尔可夫（Андрей Андреевич Марков），以纪念其为马尔可夫链所做的研究。

那么马尔科夫和强化学习之间，有什么关系呢？stackexchange上有人回答了这个问题：

在强化学习（RL）中，要解决的问题被描述为马尔可夫决策过程（MDP）。RL中的理论结果依赖于MDP描述与问题的正确匹配。

如果将你的问题描述为MDP，则RL可能是找到解决方案的良好框架。这并不意味着需要完全描述MDP（所有转换概率），而只是希望可以建立或发现MDP模型。

相反，如果你不能将问题映射到MDP上，则RL背后的理论不能保证任何有用的结果。

影响RL工作状况的一个关键因素是声明应具有马尔可夫属性，即当前状态的值足以确定操作选择后的即时过渡概率和即时奖励。再者，我们不必事先知道它们是什么，只需要这种关系是可靠和稳定的即可。如果不可靠，则可能有一个POMDP；如果不稳定，则可能存在不稳定问题。

在任何一种情况下，如果与更严格定义的MDP的差异足够小，您可能仍然无法使用RL技术或需要对其稍加调整。

RL和MDP之间的一般关系是RL是解决可以表示为MDP的问题的框架。

什么是运筹学和管理科学研究协会和瓦格纳奖？

在运筹学 (OR)、管理科学 (MS) 和商业分析领域，INFORMS是全世界公认的最具影响力的权威学会。学会每年均会颁发瓦格纳运筹学杰出实践奖，是该领域的世界级顶级奖项之一。

瓦格纳奖设立于1998年，旨在表彰在运筹学研究实践方面做出突破性的杰出成果。该奖项注重的是项目分析的质量和连贯性，解决方案的独创性和数学应用，以及成功的实践，每年获奖项目被认为是代表了运筹学领域内的最前沿应用。

以往获奖都是国外机构，例如康奈尔大学、佐治亚理工学院、美国疾病控制与预防中心、福特汽车、麻省理工学院、杜克大学、智利大学、英特尔、IBM和普林斯顿大学等。今年首次由中国公司获奖。

参考来源：

https://t.cj.sina.com.cn/articles/view/3164957712/bca56c1002000yvui

登录查看更多

相关内容

运筹学

关注 26

The science of better.

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知会员服务

232+阅读 · 2020年4月28日

最新！CCF-A类人工智能顶会WWW2020最佳论文出炉！OSU最佳论文，北邮斩获最佳学生论文！

专知会员服务

27+阅读 · 2020年4月25日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

专知会员服务

36+阅读 · 2020年4月5日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

2018年中国供应链金融行业研究报告

艾瑞咨询

7+阅读 · 2018年11月20日

ICLR 2019论文投稿近1600篇，强化学习最热门

AI100

5+阅读 · 2018年9月28日

强化学习十大原则

专知

12+阅读 · 2018年9月17日

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】淘宝：3万字介绍强化学习在电商环境下的若干应用与研究

产业智能官

9+阅读 · 2018年1月8日

【强化学习】易忽略的强化学习知识之基础知识及MDP

产业智能官

19+阅读 · 2017年12月22日

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

Can LSTM Learn to Capture Agreement? The Case of Basque

Arxiv

3+阅读 · 2018年9月11日

ViZDoom Competitions: Playing Doom from Pixels

Arxiv

5+阅读 · 2018年9月10日

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

A Stochastic Decoder for Neural Machine Translation

Arxiv

5+阅读 · 2018年5月28日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员