论文笔记 | How NOT To Evaluate Your Dialogue System

2017 年 12 月 23 日 科技创新与创业 李想

EMNLP 2016

原文链接：https://arxiv.org/pdf/1603.08023.pdf

问题

本文针对对话任务的自动评测问题进行讨论。随着对话系统研究的发展，对话检索和生成模型层出不穷，目前主要采用人工标注的方式进行评测，那么之前的一些自动评测指标，如机器翻译任务中的BLEU等是否在对话生成的评测中依然适用？

如上例子可以看出，虽然BLEU分数为0，但是模型生成的回复实际上是一个合适的回复。

本文讨论了基于词语重叠的自动评测指标（BLEU、METEOR、ROUGE）和基于词向量表征相似度（Word2Vec），实验对比发现，这些既有指标都不适用于对话评估。

方法

这里的核心思想是比较自动评测指标和人工标注的相关性。

首先需要有候选回复，一般得到回复的方法分为检索和生成两类，这里分别采用了这两类中的典型方法：TF-IDF、Dual Encoder、LSTM、HRED。

需要对比的几种自动评测指标：BLEU、METEOR、ROUGE、基于词向量表征的相似度。

分别对模型给出的回复计算自动评测指标和进行人工标注，然后计算相关性。

实验

数据：通用内容的数据集（Twitter）、某专业领域的数据集（Ubuntu）

结果：各自动评测指标同人工标注的相关性较差，说明这些既有指标都不适用于对话评估。

作者：李想，北京大学在读博士，研究方向为自然语言处理。

登录查看更多

相关内容

任务对话系统

关注 36

自然语言处理中的注意力机制，Attention in Natural Language Processing

专知会员服务

136+阅读 · 2020年5月30日

【毕业之路】如何修改博士论文？这份45页PPT《Editing your thesis》教你

专知会员服务

78+阅读 · 2020年4月13日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

【AAAI2020】知识增强的视觉故事，Knowledge-Enriched Visual Storytelling，科罗拉多大学博德分校| Chao Chun Hsu，中国科学院博士| Lun-Wei Ku

专知会员服务

26+阅读 · 2019年12月5日

【AAAI2020接受论文】预测性参与:开放领域对话系统自动评估的有效指标（Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems）

专知会员服务

14+阅读 · 2019年11月15日

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

专知会员服务

25+阅读 · 2019年11月15日

【中科院计算所 | 文献综述】自然语言生成的无监督前训练:文献综述，Unsupervised Pre-training for Natural Language Generation: A Literature Review

专知会员服务

48+阅读 · 2019年11月15日

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

赛尔笔记 | 多人对话语篇解析简介

哈工大SCIR

8+阅读 · 2019年3月2日

如何从零开始用PyTorch实现Chatbot？（附完整代码）

AI100

20+阅读 · 2019年3月1日

赛尔笔记 | BiLSTM介绍及代码实现

哈工大SCIR

23+阅读 · 2018年10月24日

检索式chatbot了解一下？

黑龙江大学自然语言处理实验室

6+阅读 · 2018年9月28日

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

基于汉语短文本对话的立场检测系统理论与实践

黑龙江大学自然语言处理实验室

5+阅读 · 2018年6月24日

深度学习对话系统理论篇--数据集和评价指标介绍

黑龙江大学自然语言处理实验室

7+阅读 · 2018年5月10日

赛尔推荐 | 第4期

哈工大SCIR

7+阅读 · 2018年3月30日

论文浅尝 | Distant Supervision for Relation Extraction

开放知识图谱

4+阅读 · 2017年12月25日

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Measuring Sentences Similarity: A Survey

Arxiv

7+阅读 · 2019年10月6日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Context in Neural Machine Translation: A Review of Models and Evaluations

Arxiv

5+阅读 · 2019年1月25日

Dialogue Natural Language Inference

Arxiv

7+阅读 · 2018年11月1日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

Multi-turn Dialogue Response Generation in an Adversarial Learning Framework

Arxiv

4+阅读 · 2018年6月11日

Improv Chat: Second Response Generation for Chatbot

Arxiv

4+阅读 · 2018年5月10日

Lessons from the Bible on Modern Topics: Low-Resource Multilingual Topic Model Evaluation

Arxiv

4+阅读 · 2018年4月26日

Open Information Extraction on Scientific Text: An Evaluation

Arxiv

6+阅读 · 2018年2月15日