新智元报道
DA-Transformer不再依赖知识蒸馏,彻底摆脱自回归模型参与训练;
大幅超越之前所有的并行生成模型,最高涨点 4.57 BLEU;
首次在未使用知识蒸馏的情况下,接近并超越自回归 Transformer 性能,真正实现又快又好的文本生成。(最高+0.60 BLEU,7~14倍解码加速)
The CoAI group, Tsinghua University, China
Department of Computer Science and Technology, Tsinghua University, China.
ByteDance AI Lab
背景:自回归和非自回归文本生成
并行生成中的一对多难题
在训练时,多个不同的参考文本会在某些位置提供不一致的词作为训练标签。由于 NAT 会独立学习预测每一个位置上的词,不一致的标签会损害模型的准确率,增加训练难度。
在解码时,NAT 缺少合适的解码手段去恢复正确的词间依赖。即使模型在训练时能够正确学得每个位置上的标签分布,NAT也无法得知每个位置上的预测词分别来自哪一个参考文本。
DA-Transformer:在有向无环图上的并行生成模型
在训练时,模型将参考文本分配到不同的路径上,避免在同一位置提供冲突的标签,提高了模型预测的准确率。
在解码时,模型可以通过有向边的转移,采样或搜索出合理的输出,保证了输出中词语搭配的正确性。
对于单个样本,训练时会将提供的参考文本稀疏地分配到图上结点,每次只更新图的一部分;
对于整个数据集,有向无环图上的不同输出可以通过综合多个训练样本学习得到。
实验结果:又快又好的并行生成
与自回归模型相比,DA-Transformer无需知识蒸馏,在四个翻译方向上均获得了接近自回归模型的性能,同时提供了7~14倍的解码加速。特别地,在WMT17中英翻译数据集上,首次展示了并行生成模型能超越自回归模型性能,提升近0.6 BLEU;
与单次预测的并行生成模型相比,DA-Transformer大幅刷新了之前的SoTA,不仅提升了生成质量(Raw Data上平均提升近3 BLEU,最高的翻译方向上提升4.57 BLEU),同时维持了较高的加速比;
与多次预测的并行生成模型相比,DA-Transformer 从加速比和生成质量上都大幅超越已有模型。
生成例子:有向无环图上的多样输出
总结
DA-Transformer 显著提升了词表上预测的准确率;
通过在图上采样,DA-Transformer 能够生成多样且高质量的结果,与自回归生成模型相当;
通过调整图的大小和解码方式,DA-Transformer 能够提供多种不同的生成质量和解码速度的权衡。