基于20万条消息，客服聊天机器人养成记

会员服务 ·

基于20万条消息，客服聊天机器人养成记

2019 年 1 月 31 日 大数据文摘

大数据文摘出品

文章来源：chatbotsmagazine.com

编译：张秋玥、钱天培

如何从零开始设计一个聊天机器人呢？

拆分需求，收集数据，设计产品流程图，训练模型…… 这些都是制作聊天机器人的关键步骤。

今天，我们就以房地产公司客服机器人为案例，讲述一个聊天机器人的养成记。

先总览一下我们的数据，目标和最终结果。

首先，一家大型房地产公司为我们提供了从网站访问者处收到的200,000条消息。

我们的目标如下。我们需要确定：

1.最常见的问题，和最常用的服务

2.这些问题的主题，以及各主题间的问题分布

3.访问者通过询问这些主题试图实现的目标（意图）

简而言之，我们希望做出由数据驱动的决策，提升用户体验。

当一位客户访问这个网站，即便TA还没有说一句话，我们其实已经对TA有了相当的了解。

在TA之前，现有客户已经在访问网站时，向实时聊天服务发送了200,000条消息。这些消息包括已由在线客服回答的消息，以及客服非工作时间内错过的消息。这些信息都可以帮助我们了解这个新客户。

于是，我们运行了一种算法，将这些消息分类为相似信息集群。仅凭算法，我们还无法准确判断他们的意图。因此，我们又动用了大量人力，来将不同集群按照聊天机器人可实现的意图进行划分。

二十万条消息最终归结为90个问题主题。通过人工分类，我们将它们放在3个模块中来设计UX：

1. 系统可以自动回答的问题

2. 在回答之前需要一系列问题来获取相关信息的问题

3. 需要机器人将访问者连接到人工客服以获得准确答案的问题

谁会使用此产品呢？

UX/对话设计师。这样的分析可以实现以用户为中心的设计，因为它可以告知设计师应当构建哪些用户路径。我们的目标是提供能够结合问题背景的答案——这一点一直是聊天机器人的软肋。

机器人训练师。他们现在知道了哪些意图最为重要。培训师可以优先使用他们最常被问及话题的短语来训练机器人。

客户。我们提供概述摘要，其中主要数据包括所提及主题的类型和频率，以及实时客服无法回答消息的数量等。

傻瓜版分步流程。

具体方法

好了，现在就来具体讲讲我们的方法啦。

1. 客户端或其第三方聊天供应商提供会话脚本。

2. 我们运行一种算法；该算法通过机器学习模型处理每个对话中的句子，这允许我们按照语义来对句子进行分类。更具体地说，我们从对话中获取句子并对句子进行矢量化。

3. 随后我们运行另一种算法，以将这些预测具有相似意图的句子分组。注意：此时的聚类可能包含彼此不完全相关的句子——它们只包含类似的信息。

4. 人工浏览这些句子、分析这些集群并为集群打上总结内容的标签。现在我们就有了一张意图列表。

这里，我们想重点区分一下集群和意图。集群是一组具有相似语义的句子——你可以确定10个句子似乎都是关于购买房产的。但是它是一种无监督的机器学习算法，没有实际背景信息。因此人类必须一条条检查它们，并验证某个集群可以转化为意图。

5.设计师采用这些意图和常见问题解答来设计工作流程，以便在用户提出问题或要求时引导用户。

我们向客户提供了一份概述，主要调查结果如下：

客户询问的主要主题和每个主题中的消息数量
在每个主题中，子主题的类型（例如，在所有要求与人工客服联系的用户中有多少人询问了客服联系方式；另一个子主题可以是，是否有空闲客服或客服工作时间）
前10大主题中的消息频率和分布
关于客服在线与离线时问题主题的比较（离线可以是非工作时间或无空闲客服）

我们面临了哪些挑战？

准确地将意图分配给信息集群需要人类手工操作。你可以想象，有一百个集群时，这项工作就太不容易了。

此外，通过90个问题主题进行分类以提出解决用户意图的工作流程需要跨职能协作。我们总是得回到创建用户旅程的目标，满足用户需求，补充公司的内部流程，并通过我们的设计以创造高效、愉悦的用户体验。

通过使用最好的自动化技术与人力相结合，我们才能够实现解决真正问题的技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【2020新书】实战R语言4，323页pdf

专知会员服务

102+阅读 · 2020年7月1日

基于深度学习的表面缺陷检测方法综述

专知会员服务

94+阅读 · 2020年5月31日

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

专知会员服务

35+阅读 · 2020年4月30日

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

AAAI 2020 | 南京大学×滴滴：基于弱监督学习的网约车用户体验提升

专知会员服务

15+阅读 · 2020年2月26日

【文献综述】边缘计算与深度学习的融合综述论文

专知会员服务

167+阅读 · 2019年12月26日

图像内容自动描述技术综述

专知会员服务

88+阅读 · 2019年11月17日

滴滴KDD 2019 论文详解：基于深度学习自动生成客服对话

AI科技评论

7+阅读 · 2019年8月10日

我是怎么走上推荐系统这条（不归）路的……

全球人工智能

11+阅读 · 2019年4月9日

精准营销，如何构建一套完善的用户画像体系？

数据猿

16+阅读 · 2018年3月20日

为什么聊天机器人表现不尽如人意

AI前线

5+阅读 · 2018年1月28日

Facebook虚拟助理M已死，这就是聊天机器人的现状

AI前线

4+阅读 · 2018年1月17日

最新！谷歌宣布对外开放聊天机器人数据分析平台Chatbase！

全球人工智能

4+阅读 · 2017年11月19日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

想让机器人替你聊天？1小时手把手训练一个克隆版的你

人工智能头条

7+阅读 · 2017年8月24日

这位程序员为什么要弃用Facebook？

CSDN

5+阅读 · 2017年7月14日

如何打造一个让人上瘾的聊天机器人，看ChatbotLife创始人给出的十点提示

AI新视界

5+阅读 · 2017年5月3日

A Survey on Edge Intelligence

Arxiv

52+阅读 · 2020年3月26日

A Survey of the Usages of Deep Learning in Natural Language Processing

Arxiv

122+阅读 · 2019年9月11日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Viscovery: Trend Tracking in Opinion Forums based on Dynamic Topic Models

Arxiv

5+阅读 · 2018年5月1日

Sounding Board: A User-Centric and Content-Driven Social Chatbot

Arxiv

5+阅读 · 2018年4月26日

Learning Topic Models by Neighborhood Aggregation

Arxiv

3+阅读 · 2018年2月22日

Understanding Chatbot-mediated Task Management

Arxiv

10+阅读 · 2018年2月9日

Learning to Speed Up Query Planning in Graph Databases

Arxiv

6+阅读 · 2018年1月21日

An Iterative Co-Saliency Framework for RGBD Images

Arxiv

4+阅读 · 2017年11月4日

Continuous Time Dynamic Topic Models

Arxiv

3+阅读 · 2015年5月16日

VIP会员

基于20万条消息，客服聊天机器人养成记

相关内容

知识荟萃

更多