近年来,随着人工智能技术的发展,更多数据被利用,数据驱动的端到端闲聊机器人技术得到快速发展,受到了学术界和工业界的广泛关注。但是对于闲聊机器人的评价,现在没有标准的自动评价方法,而自动评价方法对于闲聊机器人对话效果的评估及闲聊机器人的快速迭代是十分重要的。该文综述了基于生成模型的闲聊机器人的自动评价方法。首先介绍了自动评价方法的研究背景及研究现状,然后介绍了对闲聊机器人的基本能力—生成合理的回复进行评价的自动评价方法,并指出了每类方法的优缺点及进一步发展的方向,其次对评价闲聊机器人的扩展能力的自动评价方法进行了介绍,扩展能力包括生成多样的回复、对话具有特定的个性、对话具有情感和对话主题具有深度和广度等。随后阐述了评价闲聊机器人综合能力的评价方法,并讨论了发展综合自动评价方法的方向,同时还介绍了如何评价自动评价方法。最后进行了分析与总结,指出研究自动评价方法的困难与挑战,并对未来发展进行了展望。
http://jcip.cipsc.org.cn/CN/abstract/abstract3097.shtml
近年来,由于深度学习的快速发展以及数据的 积累,聊天机器人技术得到了迅速提升,展现出了巨 大的潜力和商业价值,受到了越来越多的关注。根据应用目的进行分类[1-3],可将聊天机器人分为目标 驱动的聊天机器人和无目标驱动的聊天机器人。如 表1所示,目标驱动的聊天机器人一般针对特定领 域设计,目标是完成用户要求的任务,比如订餐、订机票、帮助学习特定技能等,代表系统有阿里的小 蜜[4]。目标驱动的聊天机器人的对话效果好坏可根 据任务完成测试或根据用户满意分数进行评价[5]。无目标驱动的聊天机器人也被称为闲聊机器人,没 有具体的目标,只是与用户闲聊,起到情感陪伴的作 用,代表系统为微软的小冰[6]。因为闲聊机器人的 目标不明确,所以闲聊机器人对话效果好坏的定义 也不明确。目前,对闲聊机器人的评价没有统一的 定义和标准。这也是闲聊机器人的一大挑战,制约 了闲聊机器人的进一步快速发展。
闲聊机器人的构建方式有三种[1-3],分别是基于 模板 的 闲 聊 机 器 人[7]、基 于 检 索 模 型 的 闲 聊 机 器 人[8-9]和基于生成模型的闲聊机器人[10-14]。如图1 所示,基于模板的闲聊机器人,通过人工制定模板, 采用关键词匹配等方法构建,人工构建的模板十分 准确,因此回复的准确性很高,但模板构建受到人力 和物力的限制,导致模板数量比较少,因此灵活性比 较差,会有很多不能回复的问题。基于检索模型的 闲聊机器人,其检索库为人类产生的对话数据,如百 度贴吧的帖子,因此准确率较高,而且由于互联网的 发展,论坛、社交软件中人类对话的数据量很大,因 此灵活性也较高。基于生成模型的闲聊机器人,采 用数据驱动的端到端的方法构建,可以对任意问题 进行回复,因此灵活性最高,但生成模型生成的回复 往往存在语义不准确、上下文不一致等问题,因此准 确率最低。基于检索模型的闲聊机器人可以使用准 确率、召回率、F 值和 MAP@K 进行评价[8-9],而基 于生成模型的闲聊机器人的评价更加复杂,具有挑 战性,本文关注基于生成模型的闲聊机器人的评价 方法。
当前,研究者们大多将闲聊机器人的评价细分 为对生成合理的回复、生成多样的回复、对话具有特 定的个性、对话具有情感、对话主题具有深度和广度等能力的评价[15-18]。此外,虽然闲聊机器人有了很 大的发展[1],但还是面临很多挑战,如回复单一无 趣、不能保持一致的个性、主题不一致等问题,研究 者们大多只对其中的一个问题进行研究以改善闲聊 机器人的对话效果,因此,当前闲聊机器人大多只具 备一种能力,如能够保持一致个性的机器人不一定 能够理解用户的情感,能够讨论不同话题的机器人 不一定具有一致个性等。因此,根据闲聊机器人的 发展现状,同时也为了评价目标更加明确,本文只针 对闲聊机器人具备的能力进行评价。
对于闲聊机器人具备的能力的评价,现在大多 采用自动评价和人工评价相结合的方法[19-23]。人 工评价方法虽然评价结果比较可靠,但是有很多缺 点:人力物力消耗大,花费时间长,不能方便快速地 对闲聊机器人进行评价从而促进机器人的快速迭 代,此外评价者的个人喜好对评价结果也有一定的 影响。因此,为了克服人工评价方法的缺点,急需可 靠的自动评价方法。
大多数自动评价方法是对闲聊机器人是否能够 生成合理的回复进行评价,因为回复的合理性是对话 进行的基本保证,生成合理的回复是闲聊机器人最基 本的能力。就像最初闲聊机器人的生成模型借鉴机 器翻译任务中的方法一样[10],闲聊机器人的自动评 价方法最初也是从机器翻译等生成任务中借鉴而来 的,比如机器翻译任务的 BLEU [24]、METEOR [25],自 动文本摘要生成的 ROUGE [26]。机器翻译任务的 特点是一个源语言对应一个目标语言,是“一对一” 的问题,而在闲聊任务中,给定一个问题,会有很多 个合理的回复,是“一对多”的问题,如表2所示,针 对一个上下文,合理的回复有3个,包括参考回复和 闲聊机器人可能生成的回复,所以借鉴的自动评价 方法与闲聊任务并不适配。
BLEU 等基于词重叠的评价方法通过计算生成 回复与参考回复相同的 n-gram 数量进行评价,简 单来说,在平均加权的情况下,相同的 n-gram 数越 多,生成回复与参考回复越相似,生成回复越合理。但在闲聊中,存在闲聊机器人生成的回复是合理的, 但是与参考回复几乎没有相同的 n-gram 的情况, 导致 BLEU 分数很低,如表2中闲聊机器人可能生 成的回复1。基于词重叠的评价方法没有考虑生成 回复与参考回复的语义信息,所以,研究者们提出应 用基于词向量的评价方法,常用的有三种方法:向 量均值法[27]、向量极值法[28]和贪婪匹配法[29],通过 计算生成回复与参考回复的语义相似性度来判断生 成回复的合理性,语义相似度越高,生成的回复越合 理,但在闲聊中也存在闲聊机器人生成的回复是合 理的,与参考回复不仅没有相同的 n-gram,还与其 语义不相同的情况,如表2中闲聊机器人可能生成 的回复2。但基于词向量的评价方法没有考虑对话 历史,如果考虑到对话历史信息,可以判断出回复2 也是合理的。此外,有研究表明,基于词重叠的评价 方法和基于词向量的评价方法对闲聊机器人的评价 结果与人工评价结果具有很低的相关性[15],说明这 两种自动评价方法的评价结果并不可信。
为了更好地评价闲聊机器人,构建与人工评价 更具相关性的自动评价方法,有很多研究者采用机 器学习的方法来构建评价模型。主要有三个思路: 使用具有人工评分的标注数据训练模型,使得打分 模型能够学习人类,从而对闲聊机器人进行评价打 分[30-32];借鉴生成对抗网络,训练对抗模型,使得对 抗模型能够区分闲聊机器人生成的回复和人类产生 的回复[33-34];结合生成回复与参考回复的相似性和 生成回复与问题的相关性这两个评价维度设计打分 模型[35-36],其中,评价生成回复与问题的相关性的 模型采用负采样技术进行训练。以上提到的都是评价闲聊机器人的基本能力— 生成合理的回复的自动评价方法。除此之外,评价 闲聊机器人扩展能力的自动评价方法也有一定的发 展,能够对闲聊机器人可能具有的其他能力进行评 价,如生成多样的回复、对话具有情感、对话具有特 定个性和对话主题具有广度和深度等。此外,为了 发展具有多种能力的闲聊机器人的自动评价方法, 需要学习并发展当前对闲聊机器人进行综合能力评 价的方法,即学习综合评分策略,将人工评价方法自 动化,并借 鉴 一 些 自 动 评 价 方 法 来 评 价 某 种 特 定 能力。文献[19]是一篇针对基于生成模型的闲聊机器 人的自动评价方法的英文综述,发表于2016年;文 献[20]是一篇针对对话系统评价方法的中文综述, 发表于2017年。本文与这两篇综述的区别在于,这 两篇综述仅涉及到闲聊机器人的基本能力的评价, 即评价回复的合理性的自动评价方法,而本文将闲 聊机器人的评价划分为基本能力评价、扩展能力评 价和综合能力的评价,并对评价每一种能力的自动 评价方法进行了梳理和总结。此外,对于评价回复 的合理性的自动评价方法的总结,尤其是基于模型 的评价方法这一分支,内容更加全面、分析更加深 入、分类更加系统。
本文组织结构如图2所示,第1节主要介绍对 闲聊机器人的基本能力—生成合理的回复进行评价 的自动评价方法;第2节分类讨论对闲聊机器人的 扩展能力进行评价的自动评价方法;第3节介绍评 价闲聊机器人综合能力的方法,并探讨如何发展综 合自动评价方法;第4节介绍评价自动评价方法的 方法;第5节分析讨论发展自动评价方法的困难与 挑战;最后对全文进行总结。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“闲聊机器人” 就可以获取《基于生成模型的闲聊机器人自动评价方法综述》专知下载链接