题目: BLEURT: Learning Robust Metrics for Text Generation
摘要: 文本生成在过去几年中取得了重大进展。然而,评估指标却落后了,因为最流行的选择(如BLEU和 ROUGE)可能与人类的判断关系不大。我们提出了BLEURT,一个基于BERT的学习评价指标,它可以用几千个可能有偏差的训练例子来模拟人类的判断。我们的方法的一个关键方面是一个新的训练前方案,它使用数百万的综合例子来帮助模型泛化。BLEURT提供了过去三年WMT指标共享任务和WebNLG竞赛数据集的最新成果。与基于vanilla bert的方法相比,即使在训练数据缺乏和分布不均匀的情况下,它也能产生更好的结果。