题目: BLEURT: Learning Robust Metrics for Text Generation

摘要: 文本生成在过去几年中取得了重大进展。然而,评估指标却落后了,因为最流行的选择(如BLEU和 ROUGE)可能与人类的判断关系不大。我们提出了BLEURT,一个基于BERT的学习评价指标,它可以用几千个可能有偏差的训练例子来模拟人类的判断。我们的方法的一个关键方面是一个新的训练前方案,它使用数百万的综合例子来帮助模型泛化。BLEURT提供了过去三年WMT指标共享任务和WebNLG竞赛数据集的最新成果。与基于vanilla bert的方法相比,即使在训练数据缺乏和分布不均匀的情况下,它也能产生更好的结果。

成为VIP会员查看完整内容
16

相关内容

在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域的一种应用。
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
用于神经网络机器翻译的全并行文本生成
2017深度学习NLP进展与趋势
云栖社区
7+阅读 · 2017年12月17日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
Arxiv
13+阅读 · 2020年4月12日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
13+阅读 · 2019年1月26日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
用于神经网络机器翻译的全并行文本生成
2017深度学习NLP进展与趋势
云栖社区
7+阅读 · 2017年12月17日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
微信扫码咨询专知VIP会员