基于生成模型的闲聊机器人自动评价方法综述

2021 年 4 月 19 日 专知

近年来,随着人工智能技术的发展,更多数据被利用,数据驱动的端到端闲聊机器人技术得到快速发展,受到了学术界和工业界的广泛关注。但是对于闲聊机器人的评价,现在没有标准的自动评价方法,而自动评价方法对于闲聊机器人对话效果的评估及闲聊机器人的快速迭代是十分重要的。该文综述了基于生成模型的闲聊机器人的自动评价方法。首先介绍了自动评价方法的研究背景及研究现状,然后介绍了对闲聊机器人的基本能力—生成合理的回复进行评价的自动评价方法,并指出了每类方法的优缺点及进一步发展的方向,其次对评价闲聊机器人的扩展能力的自动评价方法进行了介绍,扩展能力包括生成多样的回复、对话具有特定的个性、对话具有情感和对话主题具有深度和广度等。随后阐述了评价闲聊机器人综合能力的评价方法,并讨论了发展综合自动评价方法的方向,同时还介绍了如何评价自动评价方法。最后进行了分析与总结,指出研究自动评价方法的困难与挑战,并对未来发展进行了展望。

http://jcip.cipsc.org.cn/CN/abstract/abstract3097.shtml

近年来,由于深度学习的快速发展以及数据的积累,聊天机器人技术得到了迅速提升,展现出了巨大的潜力和商业价值,受到了越来越多的关注。根据应用目的进行分类[1-3],可将聊天机器人分为目标驱动的聊天机器人和无目标驱动的聊天机器人。如表1所示,目标驱动的聊天机器人一般针对特定领域设计,目标是完成用户要求的任务,比如订餐、订机票、帮助学习特定技能等,代表系统有阿里的小蜜[4]。目标驱动的聊天机器人的对话效果好坏可根据任务完成测试或根据用户满意分数进行评价[5]。无目标驱动的聊天机器人也被称为闲聊机器人,没有具体的目标,只是与用户闲聊,起到情感陪伴的作用,代表系统为微软的小冰[6]。因为闲聊机器人的目标不明确,所以闲聊机器人对话效果好坏的定义也不明确。目前,对闲聊机器人的评价没有统一的定义和标准。这也是闲聊机器人的一大挑战,制约了闲聊机器人的进一步快速发展。

闲聊机器人的构建方式有三种[1-3],分别是基于模板的闲聊机器人[7]、基于检索模型的闲聊机器人[8-9]和基于生成模型的闲聊机器人[10-14]。如图1 所示,基于模板的闲聊机器人,通过人工制定模板, 采用关键词匹配等方法构建,人工构建的模板十分准确,因此回复的准确性很高,但模板构建受到人力和物力的限制,导致模板数量比较少,因此灵活性比较差,会有很多不能回复的问题。基于检索模型的闲聊机器人,其检索库为人类产生的对话数据,如百度贴吧的帖子,因此准确率较高,而且由于互联网的发展,论坛、社交软件中人类对话的数据量很大,因此灵活性也较高。基于生成模型的闲聊机器人,采用数据驱动的端到端的方法构建,可以对任意问题进行回复,因此灵活性最高,但生成模型生成的回复往往存在语义不准确、上下文不一致等问题,因此准确率最低。基于检索模型的闲聊机器人可以使用准确率、召回率、F 值和 MAP@K 进行评价[8-9],而基于生成模型的闲聊机器人的评价更加复杂,具有挑战性,本文关注基于生成模型的闲聊机器人的评价方法。

当前,研究者们大多将闲聊机器人的评价细分为对生成合理的回复、生成多样的回复、对话具有特定的个性、对话具有情感、对话主题具有深度和广度等能力的评价[15-18]。此外,虽然闲聊机器人有了很大的发展[1],但还是面临很多挑战,如回复单一无趣、不能保持一致的个性、主题不一致等问题,研究者们大多只对其中的一个问题进行研究以改善闲聊机器人的对话效果,因此,当前闲聊机器人大多只具备一种能力,如能够保持一致个性的机器人不一定能够理解用户的情感,能够讨论不同话题的机器人不一定具有一致个性等。因此,根据闲聊机器人的发展现状,同时也为了评价目标更加明确,本文只针对闲聊机器人具备的能力进行评价。

对于闲聊机器人具备的能力的评价,现在大多采用自动评价和人工评价相结合的方法[19-23]。人工评价方法虽然评价结果比较可靠,但是有很多缺点:人力物力消耗大,花费时间长,不能方便快速地对闲聊机器人进行评价从而促进机器人的快速迭代,此外评价者的个人喜好对评价结果也有一定的影响。因此,为了克服人工评价方法的缺点,急需可靠的自动评价方法。

大多数自动评价方法是对闲聊机器人是否能够生成合理的回复进行评价,因为回复的合理性是对话进行的基本保证,生成合理的回复是闲聊机器人最基本的能力。就像最初闲聊机器人的生成模型借鉴机器翻译任务中的方法一样[10],闲聊机器人的自动评价方法最初也是从机器翻译等生成任务中借鉴而来的,比如机器翻译任务的 BLEU [24]、METEOR [25],自动文本摘要生成的 ROUGE [26]。机器翻译任务的特点是一个源语言对应一个目标语言,是“一对一” 的问题,而在闲聊任务中,给定一个问题,会有很多个合理的回复,是“一对多”的问题,如表2所示,针对一个上下文,合理的回复有3个,包括参考回复和闲聊机器人可能生成的回复,所以借鉴的自动评价方法与闲聊任务并不适配。

BLEU 等基于词重叠的评价方法通过计算生成回复与参考回复相同的 n-gram 数量进行评价,简单来说,在平均加权的情况下,相同的 n-gram 数越多,生成回复与参考回复越相似,生成回复越合理。但在闲聊中,存在闲聊机器人生成的回复是合理的, 但是与参考回复几乎没有相同的 n-gram 的情况, 导致 BLEU 分数很低,如表2中闲聊机器人可能生成的回复1。基于词重叠的评价方法没有考虑生成回复与参考回复的语义信息,所以,研究者们提出应用基于词向量的评价方法,常用的有三种方法:向量均值法[27]、向量极值法[28]和贪婪匹配法[29],通过计算生成回复与参考回复的语义相似性度来判断生成回复的合理性,语义相似度越高,生成的回复越合理,但在闲聊中也存在闲聊机器人生成的回复是合理的,与参考回复不仅没有相同的 n-gram,还与其语义不相同的情况,如表2中闲聊机器人可能生成的回复2。但基于词向量的评价方法没有考虑对话历史,如果考虑到对话历史信息,可以判断出回复2 也是合理的。此外,有研究表明,基于词重叠的评价方法和基于词向量的评价方法对闲聊机器人的评价结果与人工评价结果具有很低的相关性[15],说明这两种自动评价方法的评价结果并不可信。

为了更好地评价闲聊机器人,构建与人工评价更具相关性的自动评价方法,有很多研究者采用机器学习的方法来构建评价模型。主要有三个思路: 使用具有人工评分的标注数据训练模型,使得打分模型能够学习人类,从而对闲聊机器人进行评价打分[30-32];借鉴生成对抗网络,训练对抗模型,使得对抗模型能够区分闲聊机器人生成的回复和人类产生的回复[33-34];结合生成回复与参考回复的相似性和生成回复与问题的相关性这两个评价维度设计打分模型[35-36],其中,评价生成回复与问题的相关性的模型采用负采样技术进行训练。以上提到的都是评价闲聊机器人的基本能力— 生成合理的回复的自动评价方法。除此之外,评价闲聊机器人扩展能力的自动评价方法也有一定的发展,能够对闲聊机器人可能具有的其他能力进行评价,如生成多样的回复、对话具有情感、对话具有特定个性和对话主题具有广度和深度等。此外,为了发展具有多种能力的闲聊机器人的自动评价方法, 需要学习并发展当前对闲聊机器人进行综合能力评价的方法,即学习综合评分策略,将人工评价方法自动化,并借鉴一些自动评价方法来评价某种特定能力。文献[19]是一篇针对基于生成模型的闲聊机器人的自动评价方法的英文综述,发表于2016年;文献[20]是一篇针对对话系统评价方法的中文综述, 发表于2017年。本文与这两篇综述的区别在于,这两篇综述仅涉及到闲聊机器人的基本能力的评价, 即评价回复的合理性的自动评价方法,而本文将闲聊机器人的评价划分为基本能力评价、扩展能力评价和综合能力的评价,并对评价每一种能力的自动评价方法进行了梳理和总结。此外,对于评价回复的合理性的自动评价方法的总结,尤其是基于模型的评价方法这一分支,内容更加全面、分析更加深入、分类更加系统。

本文组织结构如图2所示,第1节主要介绍对闲聊机器人的基本能力—生成合理的回复进行评价的自动评价方法;第2节分类讨论对闲聊机器人的扩展能力进行评价的自动评价方法;第3节介绍评价闲聊机器人综合能力的方法,并探讨如何发展综合自动评价方法;第4节介绍评价自动评价方法的方法;第5节分析讨论发展自动评价方法的困难与挑战;最后对全文进行总结。

专知便捷查看