This paper describes the Volctrans' submission to the WMT21 news translation shared task for German->English translation. We build a parallel (i.e., non-autoregressive) translation system using the Glancing Transformer, which enables fast and accurate parallel decoding in contrast to the currently prevailing autoregressive models. To the best of our knowledge, this is the first parallel translation system that can be scaled to such a practical scenario like WMT competition. More importantly, our parallel translation system achieves the best BLEU score (35.0) on German->English translation task, outperforming all strong autoregressive counterparts.
翻译:本文描述Volctrans 向 WMT21 提供德国 - > 英文翻译共享任务的新闻翻译文件。 我们使用 Glanceing 变换器建立一个平行( 即非反向) 翻译系统, 与当前流行的自动递减模式相比, 能够快速和准确地平行解码 。 据我们所知, 这是第一个平行翻译系统, 可以推广到WMT 竞争等实际情景。 更重要的是, 我们平行的翻译系统在 德文 - > 英文翻译任务上取得了最佳的 BLEU 分数( 3. 0 ), 超过所有强大的自动递减对应系统 。