Despite major advances in open-ended text generation, there has been limited progress in designing evaluation metrics for this task. We propose MAUVE -- a metric for open-ended text generation, which directly compares the distribution of machine-generated text to that of human language. MAUVE measures the mean area under the divergence curve for the two distributions, exploring the trade-off between two types of errors: those arising from parts of the human distribution that the model distribution approximates well, and those it does not. We present experiments across two open-ended generation tasks in the web text domain and the story domain, and a variety of decoding algorithms and model sizes. Our results show that evaluation under MAUVE indeed reflects the more natural behavior with respect to model size, compared to prior metrics. MAUVE's ordering of the decoding algorithms also agrees with that of generation perplexity, the most widely used metric in open-ended text generation; however, MAUVE presents a more principled evaluation metric for the task as it considers both model and human text.


翻译:尽管在不限名额的文本生成方面取得重大进展,但在设计这项任务的评价指标方面进展有限。 我们提议了MAUVE -- -- 一种不限名额的文本生成指标,直接将机器产生的文本的分布与人类语言的分布进行比较。MAUVE衡量两种分布差异曲线下的平均区域,探索两种类型的差错之间的权衡:由模型分布很接近的人类分布部分产生的差错,以及它没有产生的差错。我们在网络文本域和故事域中提出了两个不限名额的一代任务,以及各种解码算法和模型大小的试验。我们的结果显示,与以前的指标相比,MAUVE下的评价确实反映了模型大小方面更自然的行为。MAUVE对解码算法的排序也与代数的混乱(在不限名额的文本中最广泛使用的指标)相一致;然而,MAUVE提出了一种更有原则的衡量标准,因为它既考虑到模型,又考虑到人文。

0
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
Gartner:2020年十大战略性技术趋势, 47页pdf
专知会员服务
79+阅读 · 2020年3月10日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
已删除
将门创投
4+阅读 · 2020年1月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
18+阅读 · 2020年10月9日
Arxiv
5+阅读 · 2019年4月21日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2020年1月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员