User-generated content (UGC) is characterised by frequent use of non-standard language, from spelling errors to expressive choices such as slang, character repetitions, and emojis. This makes evaluating UGC translation particularly challenging: what counts as a "good" translation depends on the level of standardness desired in the output. To explore this, we examine the human translation guidelines of four UGC datasets, and derive a taxonomy of twelve non-standard phenomena and five translation actions (NORMALISE, COPY, TRANSFER, OMIT, CENSOR). Our analysis reveals notable differences in how UGC is treated, resulting in a spectrum of standardness in reference translations. Through a case study on large language models (LLMs), we show that translation scores are highly sensitive to prompts with explicit translation instructions for UGC, and that they improve when these align with the dataset's guidelines. We argue that when preserving UGC style is important, fair evaluation requires both models and metrics to be aware of translation guidelines. Finally, we call for clear guidelines during dataset creation and for the development of controllable, guideline-aware evaluation frameworks for UGC translation.


翻译:用户生成内容(UGC)的特点在于频繁使用非标准语言,从拼写错误到表情达意的选择,如俚语、字符重复和表情符号。这使得评估UGC翻译尤为困难:何为"好"的翻译取决于输出所需的标准程度。为探究此问题,我们考察了四个UGC数据集的人工翻译指南,并归纳出十二种非标准现象和五种翻译操作(规范化、复制、转移、省略、审查)的分类体系。我们的分析揭示了处理UGC方式的显著差异,导致参考翻译呈现出一系列标准程度。通过针对大语言模型(LLMs)的案例研究,我们发现翻译分数对包含明确UGC翻译指令的提示极为敏感,且当这些指令与数据集指南一致时,翻译质量会得到提升。我们认为,在保留UGC风格至关重要时,公平的评估要求模型和指标均能理解翻译指南。最后,我们呼吁在数据集创建过程中制定清晰的指南,并开发可控、具备指南感知能力的UGC翻译评估框架。

0
下载
关闭预览

相关内容

NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员