Error Span Detection (ESD) extends automatic machine translation (MT) evaluation by localizing translation errors and labeling their severity. Current generative ESD methods typically use Maximum a Posteriori (MAP) decoding, assuming that the model-estimated probabilities are perfectly correlated with similarity to the human annotation, but we often observe higher likelihood assigned to an incorrect annotation than to the human one. We instead apply Minimum Bayes Risk (MBR) decoding to generative ESD. We use a sentence- or span-level similarity function for MBR decoding, which selects candidate hypotheses based on their approximate similarity to the human annotation. Experimental results on the WMT24 Metrics Shared Task show that MBR decoding significantly improves span-level performance and generally matches or outperforms MAP at the system and sentence levels. To reduce the computational cost of MBR decoding, we further distill its decisions into a model decoded via greedy search, removing the inference-time latency bottleneck.


翻译:错误跨度检测(ESD)通过定位翻译错误并标注其严重程度,扩展了自动机器翻译(MT)评估的范畴。当前生成式ESD方法通常采用最大后验(MAP)解码,其假设模型估计的概率与人工标注的相似度完全相关,但我们常观察到模型为错误标注分配的概率高于人工标注。为此,我们将最小贝叶斯风险(MBR)解码应用于生成式ESD。在MBR解码中,我们采用句子级或跨度级相似度函数,根据候选假设与人工标注的近似相似度进行选择。在WMT24度量共享任务上的实验结果表明,MBR解码显著提升了跨度级性能,且在系统和句子级别普遍达到或超越了MAP解码的表现。为降低MBR解码的计算成本,我们进一步将其决策知识蒸馏至通过贪心搜索解码的模型中,从而消除了推理时的延迟瓶颈。

0
下载
关闭预览

相关内容

【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员