分享主题
滴滴KDD2019重点论文分享
1. Automatic Dialogue Summary Generation for Customer Service客服对话摘要自动生成
2. A Deep Value-network Based Approach for Multi-Driver Order Dispatching,基于深度价值网络的多司机订单指派模型
分享背景
美国当地时间8月4日至8日,国际数据挖掘顶会KDD在阿拉斯加安克雷奇市举行。本次分享会,来自滴滴两名讲者将分别分享收录于KDD2019的研究成果—滴滴如何基于深度学习方法自动化地生成工单摘要,并基于深度强化学习与半马尔科夫决策过程进行智能派单。
分享论文概述
1. 客服对话摘要自动生成
Automatic Dialogue Summary Generation for Customer Service
滴滴客服每天需要处理大量进线咨询,对于每一个进线咨询,客服都需要记录工单摘要,以方便其它客服以及客服质检同学了解用户的问题,客服的处理方案以及用户的反馈等信息。纪录工单摘要占用了客服大量的时间,因此自动生成工单摘要可以大大提高客服工作效率。摘要需要有完整性,逻辑性与正确性,之前的研究很少考虑这些要求。
本文提出了引入要点序列这个辅助信息来解决这些问题。要点序列描述了摘要的逻辑关系,并涵盖关键信息。对于训练数据,我们利用基于规则从摘要中提取要点序列,在并训练过程中采用多任务学习的方法,让模型同时学习如何生成要点序列与工单摘要。对于测试数据,模型首先生成要点序列,然后在其指导下生成相应的摘要序列。我们设计Leader-Writer网络来完成这个工作。
在滴滴数据集上的实验表明,Leader-Writer网络,不仅在BLEU与ROUGE-L得分上优于其它模型,并且生成的摘要在逻辑性,完整性以及正确性上表现更优。
2. 基于深度价值网络的多司机订单指派模型
A Deep Value-network Based Approach for Multi-Driver Order Dispatching
本文提出一种新的基于深度强化学习与半马尔科夫决策过程的智能派单应用,在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。
针对派单应用中的关键时空及情景式特征输入,我们专门设计了全新的多精度分布式状态表达模块(Hierarchical Geocoding with Cerebellar Embedding),能自适应于训练数据时空上的分布特性,增强泛化以及学习有效性。进一步提出在价值迭代训练中使用Lipschitz正则化来约束价值函数的Lipschitz常数。我们发现这种正则化能有效去除价值估计中的异常估计,并且能增强价值迭代稳定性加快MDP策略收敛。最后,我们提出了专门针对派单的迁移学习方法,能有效提升多城市的训练学习任务。
系统的离线模拟实验以及在滴滴平台的在线AB实验证明,我们提出的这种基于深度强化学习的派单算法相比现有最好的方法能进一步显著提升平台各项效率及用户体验指标包括应答率,完单率以及司机收入。
分享嘉宾
王鹏博士,滴滴AI Labs(人工智能实验室) NLP推荐智能组负责人,主要负责智能客服推荐系统以及客服智能辅助相关算法的研发,支持滴滴智能客服体系的建设,研究兴趣点包括用户行为预测,对话理解、问答系统等,在相关领域发表论文10余篇。王鹏毕业于中科院计算技术研究所,在加入滴滴之前,在阿里巴巴搜索事业部工作,参与构建了阿里巴巴卖家关系网络及卖家分层管控体系。
唐小程博士,滴滴AI Labs(人工智能实验室)专家算法工程师,在滴滴美研负责强化学习组交易引擎方向的研发工作。专注于机器学习优化算法,推荐系统,强化学习等。2018年主导开发的强化学习端到端全局最优派单系统获得在Montreal举办的NeurIPS人工智能大会Best Demo Awards。本科毕业于浙江大学,在美国理海大学取得优化运筹学博士学位。在加入滴滴前,先后就职于IBM Watson,硅谷雅虎Labs,初创公司Pivotal Software。
分享提纲
一、客服对话摘要自动你生成
客服工单摘要难点及挑战
基于辅助要点序列,提出了Leader-Writer网络
实验结果与讨论
二、基于深度价值网络的多司机订单指派模型
出行场景派单难点及挑战
深度价值网络的强化学习和匹配规划
实验结论和后续优化方向
分享时间
(北京时间)08 月 08 日(星期四)早上 10:00-11:30
扫码加入小组,直播回放都不错过,还能向讲师提问,与组员交流。
直播链接
http://www.mooc.ai/open/course/678
↘ 扫码直达 ↙
点击阅读原文,直达本期大讲堂直播间