NewBeeNLP原创出品
公众号专栏作者 @zhpmatrix
blog | https://zhpmatrix.github.io/
今天,来和大家聊聊NLP最火的智能客服赛道。由于微信文章不能插入外部链接,本文的一些参考在文末列出链接。另,由于样本有限,以下内容仅代表个人『过拟合观点』,欢迎一起讨论交流
智能客服线的市场空间是有的,一方面按照乐言沈李斌的计算方式,如下:
中国当前的客服人员超过1000万人,按照人均6-8万/年的人力成本计算,整个客服市场规模每年约7000亿。若其中15-20%被智能客服替代,整个市场空间就有1000-1400亿。
其他数据,可以借助《2018中国智能客服行业研究报告》补充。
另一方面,智能客服的发展主线:从大客服到普惠问答,最后可以到海外。
用户在输入“嗯”,“是”等无意义的问题的时候,对于目前的单轮问答系统来说,会给用户一个反馈,因为当前的系统假定总是要给用户一个反馈。
用户在短时间内用不同的问题方式表达同样的意图,如果机器人是基于单问题做意图判断,那么回复答案相同。带来的问题是用户判断是机器回复,有厌倦情绪。解决的基本思路:问题侧做相同意图问题合并,答案侧做相同意图的回复多样性思考。
长难句由于长,会导致一定程度上的难,比如给多意图识别带来的困难。分析客服对话数据:
针对该问题,平安寿险的做法如下(语法树分析+关键词典):
实际上,当用户一次输入多个意图,但是机器只回复其中一个问题的时候,用户会再次单独询问该问题。本质上将一个多轮的对话转化为单轮。
错别字问题是必须要解的吗?取决于具体的场景。
比如,在情感分析任务中,比起是否含有“不”的问题,错别字带来的困扰似乎不是很多。如果必须解,实际上,基于词典的方案可能就可以解的不错。在分析很多语料之后,可以看到:优惠卷(优惠券),冲电(充电),锁频(锁屏),视屏(视频),定单(订单),是经常出错的例子,当然存在一定程度上的长尾错误。
个人基于错别字做了很多工作,可以在之前的博客中看到。整体的感受是:要结合具体问题具体分析,通用纠错的ROI非常低,当然不能否认错别字相关工作的技术价值。
在之前的博客中,讨论过答案推荐的一些问题,Learning to Rank用于问答匹配/答案推荐建模和答案推荐的评估指标设计。问答系统的研究对象简而言之就是问题和答案,从目前的进展来看,多数工作是围绕问题展开的,关注对问题的理解,而对答案,可以通过问题-答案的简单映射关系确定。不过,这里讨论的是问题侧。产品上希望的一种形态是:用户还没问,系统就知道用户想问啥?用户说不清楚,系统也可以理解用户想表达什么意思?用户还没说,系统就会表达用户想说的意图。
在这篇携程智能客服实践[1]文章中,描述的比较清楚:
在这个过程中,算法不外乎要做的就是两件事:猜你所想,答你所问 我们先说猜这件事,类似推荐,在用户还没有做出任何输入时,我们会根据用户的信息、当前上下文信息以及咨询的产品信息来猜测用户进入咨询界面时想问什么问题,从而得到一堆问题的排序展示给用户。如果第一步没有猜到用户想要的问题,用户就会通过输入框来简单描述自己的情况和想要咨询的问题,在用户输入的过程中,我们也会结合用户输入的内容通过算法来实时猜测用户可能咨询的问题,并以input suggestion的方式给到用户。若上述都无法让用户找到自己想要的答案,那就是答这件事要解决的。
支付宝的客服系统是基于强化学习做的。
智能推荐在输入法场景下应该是一种比较常用的范式了。
可以划归到问题推荐这个维度,不过更适合在多轮对话中做,围绕该方向,蚂蚁金服同样做了很多工作
比较常见的是淘系产品对于宝贝的评价,对话语料也是一种获取评价的来源,而且是一种更直接的反馈。
除去通用评价,使用客服系统多数情况下是为了解决问题,而买家不满情绪挖掘则是一个重要问题。例如 客服对话数据:
总结买家不满情绪的原因如下:
该环节的一个极端表现是如京东智能客服挽救欲自杀的女孩(对话理解),天眼系统帮助追踪到在逃十年的案犯等问题(行人重识别),且不论是否有PR嫌疑,如果为真,这样的案例就是智能客服系统中的“黑天鹅”。
主要目的是两个:
该环节也是系统生命周期管理的重要一环。在一些大的客户产品中已经可以看到,诸如平安保险等。
通常用户要求转人工,主要包含以下四种情况:
用户要求转人工,对于一个智能客服系统而言,并不是一件好事,因此结合上述情况,讨论如何求解是一种有意义的问题。
针对该点,讨论关于用户预期的管理:
滴滴的工作: 基于深度学习自动生成客服对话摘要[2]
杭州语忆科技,该公司有好多有趣的博文可以读。
阿里的“慧眼”项目,也可以参照。
基于GPT的标准问生成[3]
啥?不是只讨论产品想法吗?
携程智能客服实践: https://juejin.im/entry/6844903653107564552
[2]基于深度学习自动生成客服对话摘要: https://www.leiphone.com/news/201908/ONKkZHFyT52hLWdR.html
[3]基于GPT的标准问生成: https://zhuanlan.zhihu.com/p/149429784
[4]阿里小蜜: https://plmsmile.github.io/2018/05/03/44-reinforce-nlp/
[5]任务导向型对话系统——对话管理模型研究最新进展: https://mp.weixin.qq.com/s/6wSz8wAi0vrHebZ0EJ2sZA
[6]中文知识图谱问答的比赛调研: https://blog.nowcoder.net/n/630128e8e6dd4be5947adbfde8dcea44
[7]CCKS2019(第三名的工作): https://zhuanlan.zhihu.com/p/92317079
[8]NLPCC2016的工作: https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/86110121
[9]美团: 基于知识图谱的问答在美团智能交互场景中的应用和演进: https://www.infoq.cn/article/hf8eT8AXksGEsThWsWIp
[10]关键方案: https://zhuanlan.zhihu.com/p/136971135
[11]QA匹配的传统工作总结: https://zhuanlan.zhihu.com/p/39920446
[12]基于CNN网络,用排序学习的思路解决QA匹配的问题: https://zhuanlan.zhihu.com/p/111380177
[13]一个基于投资信息的问答匹配模型实验结果: https://blog.csdn.net/zp563987805/article/details/104350670
[14]匹配相关模型: https://github.com/NTMC-Community/MatchZoo
[15]文本挖掘技术在客服对话数据分析中的应用与实践: https://www.secrss.com/articles/4587
[16]新词发现: https://github.com/zhanzecheng/Chinese_segment_augment
[17]新词发现: https://kexue.fm/archives/6920
[18]专业词汇挖掘: https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/89348286
[19]matrix67的工作: http://www.matrix67.com/blog/archives/5044
[20]电力领域专业词汇挖掘: https://zhuanlan.zhihu.com/p/54375522
[21]基于LTP的无监督信息抽取模块: https://zhuanlan.zhihu.com/p/44890664
[22]数据预处理服务: https://www.cnblogs.com/lovychen/p/6701214.html
[23]过滤中英文标点符号: https://blog.csdn.net/a214704/article/details/81664699
[24]标点转换: https://blog.csdn.net/nanbei2463776506/article/details/82967140
[25]繁简转换: https://zhuanlan.zhihu.com/p/55973055
[26]TF-IDF计算: https://blog.csdn.net/Eastmount/article/details/50323063
- END -
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方"AINLP",进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
推荐阅读
征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)
完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)
模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法
文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化
斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧🙏