当AI客服遇上「图文混排」提问，京东给电商AI来了场摸底考试

2020 年 12 月 17 日 机器之心

机器之心原创

作者：张倩

当买家非要「看图说话」，AI 客服要怎么破？

对于很多人来说，决定自己网购体验的，除了快递的速度，还有AI客服咨询的流畅和智能水平。

随着人机对话技术的发展，越来越多的电商企业开始用 AI 客服来回答用户的问题。虽然AI客服在文本对话中已经可以流畅回应，并切实帮助用户解答问题，但随着图片等多模态信息在对话中越来越频繁地出现，当前的 AI 客服正面临愈发严峻的挑战，不仅要理解文字内容，还要理解图片等多模态内容。AI客服在多模态场景的应用，还需要进一步的技术突破。

为了推动跨模态智能对话与人机交互技术的发展，京东 AI 研究院联合北京智源人工智能研究院在2018年首届任务导向型对话挑战赛、2019年基于知识增强的任务导向型对话挑战赛的基础上，共同举办 2020 年多模态任务导向型多轮对话挑战赛 。本次大赛聚焦 大规模真实复杂零售场景下多模态人机交互问题 ，通过打造多模态对话系统提升人机交互的自然度和体验。

这次比赛 5 月 25 日开赛，9 月 15 日截止模型提交，总共历时 17 周，报名参赛选手共 734 人。最终，来自腾讯 AI Lab 的团队脱颖而出，摘得大赛一等奖；来自众多企业、高校、研究机构的团队也在此次大赛中展现出非凡的实力。

前段时间，中国计算语言学大会（CCL 2020）技术评测研讨会智源 - 京东多模态对话挑战大赛任务研讨会在线召开。在此次研讨会上，主办方京东 AI 研究院对本年的对话大赛进行了全方位的回顾与总结，几支获奖团队也受邀分享了此次大赛的比赛方案。

赛题设置和辅助信息

本次大赛考察的是多模态对话场景的问答问题。其中，「多模态」指的是对话 session 中用户提出的问题至少包含一张图片信息。整个场景包含 n 轮对话，参赛者可以拿到用户在此轮对话中提出的问题 Q_n 和此轮对话前 n-1 轮的对话历史信息，然后根据上下文和此轮问题给出通顺、逻辑一致且含有丰富知识的答案，以满足用户期望。最终评测采用自动评测、人工评测与技术方案评价相结合的方式进行。

由于在真实的线上服务场景中，用户发送的是多模态的图文信息，客服一般回复的都是文本信息。所以，本次大赛考察的重点是多模态的 上下文语义理解、单模态的文本应答 这样一个任务场景。

为了挑战这一难题，大赛构建了 JDDC 2.0 (Jing Dong Dialogue Corpus 2.0) 数据集 。该数据集由服饰品类和小家电品类线上金牌客服的含有多模态信息的对话日志组成，是 首个中文多模态对话数据集 ，包含多模态对话 24.6 万段，平均会话长度为 14 轮。

为了使参赛者更方便地使用对话中的图片信息，数据集选取了 5000 段小家电类对话和 5000 段服饰类对话，对其中所包含的图片进行了人工分类打标，共提供了 1.69 万张图片的 58 类标签。

此外，数据集还提供了对话中所涉及的商品知识库信息。整个知识库一共包含商品知识三元组 21.9 万条，其中含商品实体共 3 万多个，分别属于 231 种商品，包含 759 种商品属性关系。商品属性关系准确详尽，不仅包含商品基本属性信息，还包含商品卖点信息，可应用于商品属性应答、商品推荐等场景。

赛题难点

这场比赛的难点体现在多个方面。首先是 长尾问题 。在电商情景中，用户提出的问题五花八门，非常见问题可能占了很大比例。例如，在一个电磁炉的销售案例中，多数用户会问如何调节功率，但偶尔也有客户会问怎么设置温度。对于这类非常见问题，模型的表现可能不尽如人意。

第二个问题是 上下文建模 。购物场景中的对话轮次通常比较长，且前后内容相关性很强。如果模型只看当前或近几轮的交互，就会出现逻辑细节上的矛盾。因此，只有有效建模上下文，才能准确表达上下文中的细节信息。

第三个问题是 多模态特征提取和融合 。多模态特征的提取方式分为很多种，可以利用整张图像提取特征，也可以只利用感兴趣区域（ROI）或图片上的文字。究竟哪种提取方式更有效还是一个需要探讨的问题。提取完成后，我们还要考虑这些特征要怎么与文本模态特征进行融合。

第四个问题是 情感交流 。在真实的业务场景中，用户可能本身就有一种不满或委屈的情绪，这就需要模型在解决问题的同时还要能够与用户有比较好的情感交流，提供更贴心的服务。

最后一个是 决策问题 。有些商品不可避免地有些小瑕疵，也不影响使用，一般人工客服都会选择对顾客进行小额经济补偿。如果模型选择每单都让顾客退货的话，就会造成一定的社会资源浪费。这种场景对模型的决策能力提出了很高的要求。

获奖团队解决方案

此次比赛涌现的解决方案利用了当前比较热门的一些技术点，比如对 Transformer、大规模参数语言模型、生成式模型、大规模预训练模型和多模态知识的运用。

在架构方面，优胜团队要么使用基于 Transformer 的语言模型，要么直接使用 Transformer 构建编解码器。由此可见，Transformer 已经取代 RNN 成为自然语言处理最主流的特征抽取器。

在模型规模方面，多个获奖团队选择了 Bert、GPT、UniLM 这样的大规模参数语言模型，利用更多的参数得到更好的对话效果。

在模型类别方面，优胜队伍几乎一边倒地使用了生成式模型，这也说明在语料充足的情况下，各种以 Transformer 为基础的生成模型在对话生成的语言流畅程度、应答相关性等方面表现与检索式模型没有区别，甚至会更有优势。

在预训练模型方面，第一名和第四名都使用了大规模数据预训练的 BERT 模型作为基础，这两个模型在人工单项评分中应答的满意率也略高一些，可见大规模预训练模型有助于进一步提升系统性能。

在知识方面，恰当融合多模态知识的参赛模型在某些场景下能够弥补单模态的信息缺失，提供更加满意的答案。

接下来，我们来看一下 排名前二 的优胜团队的具体解决方案。

腾讯 AI Lab：基于预训练语言模型和结构化知识库的多模态对话生成模型

第一名是来自腾讯 AI Lab 的团队（Arrival），他们构建了「基于预训练语言模型和结构化知识库的多模态对话生成模型」。该方案充分利用对话中的多模态信息与知识信息构建了基于预训练 BERT 的对话生成模型，并取得了良好效果。

方案的第一个阶段是通过领域适应预训练构建一个面向结构化知识库的对话模型，其中涉及知识库预训练、序列预训练、回复预训练等步骤。

第二个阶段是训练出能够同时支持多模态信息和知识信息的生成模型。首先，使用 ResNet 模型抽取图片特征并通过 K-means 实现图片聚类，将图片抽象化为 200 类 token 信息。然后，将这些信息融入先前训练好的面向结构化知识库的对话模型中，通过训练产生能够同时支持多模态信息和知识信息的生成模型。

云从科技：基于 GPT 模型的多模态融合方法及系统

第二名是来自云从科技的团队，他们构建了「基于 GPT 模型的多模态融合方法及系统」，使用多模态方式打造 GPT 对话模型。

在该方案中，模型采用上下文串接的方式将对话涉及的商品知识三元组放在对话的开头，作为对话的背景知识。然后，采用 ResNet 模型提取多模态图片中的特征。接下来，利用模型 Embedding 层向量叠加的方式将图片特征与文本特征相融合。最后，将这些融合后的多模态数据输入 GPT 结构为核心实现的编解码一体化模型，完成对话生成任务。