Machine Translation Quality Estimation (QE) is the task of evaluating translation output in the absence of human-written references. Due to the scarcity of human-labeled QE data, previous works attempted to utilize the abundant unlabeled parallel corpora to produce additional training data with pseudo labels. In this paper, we demonstrate a significant gap between parallel data and real QE data: for QE data, it is strictly guaranteed that the source side is original texts and the target side is translated (namely translationese). However, for parallel data, it is indiscriminate and the translationese may occur on either source or target side. We compare the impact of parallel data with different translation directions in QE data augmentation, and find that using the source-original part of parallel corpus consistently outperforms its target-original counterpart. Moreover, since the WMT corpus lacks direction information for each parallel sentence, we train a classifier to distinguish source- and target-original bitext, and carry out an analysis of their difference in both style and domain. Together, these findings suggest using source-original parallel data for QE data augmentation, which brings a relative improvement of up to 4.0% and 6.4% compared to undifferentiated data on sentence- and word-level QE tasks respectively.
翻译:翻译质量估计(QE) 是在没有人文参考的情况下评估翻译输出的任务。 由于缺少人文标签的 QE 数据, 先前的工作试图利用大量未贴标签的平行公司来用假标签制作额外的培训数据。 在本文中, 我们展示了平行数据与真实的 QE 数据之间的巨大差距: 对于 QE 数据, 我们严格保证源侧是原始文本, 目标侧是翻译( 即翻译 ) 。 但是, 对于平行数据, 它是不分青红皂白的, 翻译可能在源或目标方发生。 我们试图将平行数据的影响与QE 数据增强中的不同翻译方向进行比较, 并发现使用平行实体原始来源部分始终优于目标对口。 此外, 由于WMT 文缺乏每个平行句的方向信息, 我们训练一个分类器, 来区分源与目标点位点位, 并分析其风格和领域的差异。 这些结果显示, 在 QE 数据增强中, 我们用源源- 平行数据 数据 和 QE 数据 递增 4 上, 分别将 的 度 度 和 度 度 的 度 度 的 度 相对 度 度 度 度 度 度 度 度 度 度 度 至 度 度 度 度 度 至 度 度 度 度 度 度 至 度 度 度 度 度 度 度 度 至 度 度 度 度 度 度 度 度 度 至 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度