A new metric \texttt{BaryScore} to evaluate text generation based on deep contextualized embeddings e.g., BERT, Roberta, ELMo) is introduced. This metric is motivated by a new framework relying on optimal transport tools, i.e., Wasserstein distance and barycenter. By modelling the layer output of deep contextualized embeddings as a probability distribution rather than by a vector embedding; this framework provides a natural way to aggregate the different outputs through the Wasserstein space topology. In addition, it provides theoretical grounds to our metric and offers an alternative to available solutions e.g., MoverScore and BertScore). Numerical evaluation is performed on four different tasks: machine translation, summarization, data2text generation and image captioning. Our results show that \texttt{BaryScore} outperforms other BERT based metrics and exhibits more consistent behaviour in particular for text summarization.


翻译:引入了一个新的衡量标准 \ textt{BaryScore} 来评估基于深背景嵌入的文本生成, 如 BERT、 Roberta、 ELMO) 。 该衡量标准是由依靠最佳运输工具的新框架驱动的。 通过将深背景嵌入的层输出建模为概率分布而不是矢量嵌入; 这个框架提供了一种自然的方法, 通过瓦瑟斯坦空间表层来汇总不同输出。 此外, 它为我们的衡量标准提供了理论依据, 并为现有解决方案提供了替代方案, 如 MolerScore 和 BertScore ) 。 数字评价是在四种不同的任务上进行的: 机器翻译、 汇总、 数据2 文本生成和图像说明。 我们的结果表明,\ textt{BaryScore} 超越了其他基于 BERT 的测量标准, 并展示了更一致的行为, 特别是文本概括。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
49+阅读 · 2021年4月24日
专知会员服务
51+阅读 · 2020年12月14日
专知会员服务
19+阅读 · 2020年9月6日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【电子书推荐】Data Science with Python and Dask
专知会员服务
44+阅读 · 2019年6月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年11月15日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
6+阅读 · 2018年3月12日
VIP会员
Top
微信扫码咨询专知VIP会员