A wide variety of NLP applications, such as machine translation, summarization, and dialog, involve text generation. One major challenge for these applications is how to evaluate whether such generated texts are actually fluent, accurate, or effective. In this work, we conceptualize the evaluation of generated text as a text generation problem, modeled using pre-trained sequence-to-sequence models. The general idea is that models trained to convert the generated text to/from a reference output or the source text will achieve higher scores when the generated text is better. We operationalize this idea using BART, an encoder-decoder based pre-trained model, and propose a metric BARTScore with a number of variants that can be flexibly applied in an unsupervised fashion to evaluation of text from different perspectives (e.g. informativeness, fluency, or factuality). BARTScore is conceptually simple and empirically effective. It can outperform existing top-scoring metrics in 16 of 22 test settings, covering evaluation of 16 datasets (e.g., machine translation, text summarization) and 7 different perspectives (e.g., informativeness, factuality). Code to calculate BARTScore is available at https://github.com/neulab/BARTScore, and we have released an interactive leaderboard for meta-evaluation at http://explainaboard.nlpedia.ai/leaderboard/task-meval/ on the ExplainaBoard platform, which allows us to interactively understand the strengths, weaknesses, and complementarity of each metric.


翻译:各种各样的 NLP 应用程序, 如机器翻译、 概括化和对话框, 涉及到文本生成。 这些应用程序的主要挑战是如何评价这些生成的文本是否真正流畅、 准确或有效。 在这项工作中, 我们将生成文本的评价概念化为文本生成问题, 模型使用预先培训的顺序到序列模型。 通常的想法是, 将生成文本转换成/ 从参考输出或源文本的模型, 当生成文本更好时会获得更高的分数。 我们使用基于预训练模型的交互式弱智( BART ) 来实施这个想法, 并提议一个具有若干变异的BARTScream, 可以灵活地在不监督的情况下应用这些变异来从不同角度评估文本( 如: 信息性、 流利度或事实质量 ) 。 BARTScore在概念上简单化了, 在22个测试环境中, 现有顶级测量测量标准, 包括16个数据集的评估( 如, 机器翻译、 缩略图) 和7个版本的SAR- realalalalal 平台上, 可以理解 。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
44+阅读 · 2020年9月11日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
已删除
将门创投
4+阅读 · 2018年6月4日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月22日
Arxiv
18+阅读 · 2020年10月9日
Generative Adversarial Networks: A Survey and Taxonomy
Arxiv
5+阅读 · 2019年4月21日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2018年6月4日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员