文本生成在过去几年中取得了重大进展。然而,评估指标却落后了,因为最流行的选择(如BLEU 和ROUGE)可能与人类的判断关系不大。我们提出了BLEURT,一种基于BERT的学习评价指标,它可以用几千个可能有偏见的训练例子来模拟人类的判断。我们的方法的一个关键方面是一个新的预训练方案,它使用了数百万的综合例子来帮助模型泛化。BLEURT提供了过去三年WMT指标共享任务和WebNLG竞赛数据集的最先进的结果。与基于普通BERT的方法相比,即使在训练数据稀少且分布不均匀的情况下,它也能产生更好的结果。