https://arxiv.org/abs/2007.01488
文本生成模型的基本目标是拟合文本数据的真实概率分布,拟合的程度一般可以由散度(Divergence)来度量。然而散度对于模型诊断所提供的信息有限,仅凭散度无法判断模型效果不好是由于生成文本可读性差还是多样性不足造成的。因此在模型研究或应用的评价阶段,研究者往往使用质量和多样性两类指标进行联合评价。高质量意味着生成的文本所含语法逻辑错误较少,而高多样性指的是生成的多条文本之间有足够大的差异。尽管质量/多样性的联合评价已被广泛应用于新模型的评价,两者之间所呈现的互为权衡的现象仍没有可靠的解释;而且这种评价方式是否还能充分反映原来分布拟合的目标仍是一个未知的问题。本文主要针对以上问题展开理论和实验上的分析。