滴滴、优步、Lyft等大型代驾平台,将一个城市的数万辆汽车连接到了全天数以百万计的代驾需求上,通过订单调度、车辆重新定位等任务,为提高运输效率提供了巨大的希望。然而,现有的研究通常是在简化的背景下考虑这两项任务,这很难解决两者之间的复杂相互作用、供需之间的实时波动以及由于问题的大规模而需要的协调。在本文中,我们提出了一个统一的基于价值的动态学习框架(V1D3)来处理这两个任务。该框架的中心是一个全球共享的价值函数,它使用实时平台事务生成的在线体验不断更新。为了提高采样效率和鲁棒性,我们进一步提出了一种结合快速在线学习和大规模离线训练的周期集成方法,该方法利用了丰富的驾驶员历史轨迹数据。这使得所提出的框架能够快速适应高度动态的环境,有力地推广到循环模式,并在管理车辆的群体中驱动隐式协调。基于真实数据集的大量实验表明,与最近提出的其他方法相比,这两种方法在这两种任务上都有很大的改进。特别是,V1D3在KDD杯2020 RL比赛中的表现优于调度和重新定位赛道的一等奖得主,在提高驾驶员总收入和用户体验相关指标方面取得了最新成果。