Error Span Detection (ESD) is a subtask of automatic machine translation evaluation that localizes error spans in translations and labels their severity. State-of-the-art generative ESD methods typically decode using Maximum a Posteriori (MAP), assuming that model-estimated probabilities are perfectly correlated with similarity to human annotation. However, we observed that annotations dissimilar to the human annotation could achieve a higher model likelihood than the human annotation. We address this issue by applying Minimum Bayes Risk (MBR) decoding to generative ESD models. Specifically, we employ sentence- and span-level similarity metrics as utility functions to select candidate hypotheses based on their approximate similarity to the human annotation. Extensive experimental results show that our MBR decoding outperforms the MAP baseline at the system, sentence, and span-levels. Furthermore, to mitigate the computational cost of MBR decoding, we demonstrate that applying MBR distillation enables a standard greedy model to match MBR decoding performance, effectively eliminating the inference-time latency bottleneck.


翻译:错误跨度检测(ESD)是自动机器翻译评估的一个子任务,旨在定位翻译中的错误跨度并标注其严重程度。当前最先进的生成式ESD方法通常采用最大后验概率(MAP)解码,假设模型估计的概率与人工标注的相似度完全相关。然而,我们观察到,与人工标注不相似的标注可能获得比人工标注更高的模型似然。我们通过将最小贝叶斯风险(MBR)解码应用于生成式ESD模型来解决这一问题。具体而言,我们采用句子级和跨度级相似度度量作为效用函数,根据候选假设与人工标注的近似相似度进行选择。大量实验结果表明,我们的MBR解码在系统、句子和跨度级别上均优于MAP基线。此外,为减轻MBR解码的计算成本,我们证明应用MBR蒸馏可使标准贪婪模型匹配MBR解码性能,有效消除推理时的延迟瓶颈。

0
下载
关闭预览

相关内容

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员