论文笔记 | How NOT To Evaluate Your Dialogue System

2017 年 12 月 23 日 科技创新与创业 李想

EMNLP 2016

原文链接:https://arxiv.org/pdf/1603.08023.pdf

问题

本文针对对话任务的自动评测问题进行讨论。随着对话系统研究的发展,对话检索和生成模型层出不穷,目前主要采用人工标注的方式进行评测,那么之前的一些自动评测指标,如机器翻译任务中的BLEU等是否在对话生成的评测中依然适用?

如上例子可以看出,虽然BLEU分数为0,但是模型生成的回复实际上是一个合适的回复。

本文讨论了基于词语重叠的自动评测指标(BLEU、METEOR、ROUGE)和基于词向量表征相似度(Word2Vec),实验对比发现,这些既有指标都不适用于对话评估。

方法

这里的核心思想是比较自动评测指标和人工标注的相关性。

首先需要有候选回复,一般得到回复的方法分为检索和生成两类,这里分别采用了这两类中的典型方法:TF-IDF、Dual Encoder、LSTM、HRED。

需要对比的几种自动评测指标:BLEU、METEOR、ROUGE、基于词向量表征的相似度。

分别对模型给出的回复计算自动评测指标和进行人工标注,然后计算相关性。

实验

数据:通用内容的数据集(Twitter)、某专业领域的数据集(Ubuntu)

结果:各自动评测指标同人工标注的相关性较差,说明这些既有指标都不适用于对话评估。


作者:李想,北京大学在读博士,研究方向为自然语言处理。

登录查看更多
13

相关内容

Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
赛尔笔记 | 多人对话语篇解析简介
哈工大SCIR
7+阅读 · 2019年3月2日
赛尔笔记 | BiLSTM介绍及代码实现
哈工大SCIR
23+阅读 · 2018年10月24日
检索式chatbot了解一下?
黑龙江大学自然语言处理实验室
6+阅读 · 2018年9月28日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
基于汉语短文本对话的立场检测系统理论与实践
黑龙江大学自然语言处理实验室
5+阅读 · 2018年6月24日
深度学习对话系统理论篇--数据集和评价指标介绍
黑龙江大学自然语言处理实验室
7+阅读 · 2018年5月10日
赛尔推荐 | 第4期
哈工大SCIR
7+阅读 · 2018年3月30日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
4+阅读 · 2018年5月10日
VIP会员
相关VIP内容
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
相关资讯
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
赛尔笔记 | 多人对话语篇解析简介
哈工大SCIR
7+阅读 · 2019年3月2日
赛尔笔记 | BiLSTM介绍及代码实现
哈工大SCIR
23+阅读 · 2018年10月24日
检索式chatbot了解一下?
黑龙江大学自然语言处理实验室
6+阅读 · 2018年9月28日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
基于汉语短文本对话的立场检测系统理论与实践
黑龙江大学自然语言处理实验室
5+阅读 · 2018年6月24日
深度学习对话系统理论篇--数据集和评价指标介绍
黑龙江大学自然语言处理实验室
7+阅读 · 2018年5月10日
赛尔推荐 | 第4期
哈工大SCIR
7+阅读 · 2018年3月30日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
相关论文
Top
微信扫码咨询专知VIP会员