主题: Imitation Attacks and Defenses for Black-box Machine Translation Systems
摘要: 我们考虑一个寻求窃取黑盒机器翻译(MT)系统的对手,以获取经济利益或排除模型错误。我们首先表明,黑盒机器翻译系统可以通过使用单语句子和训练模型来模拟它们的输出来窃取。通过模拟实验,我们证明了即使模仿模型的输入数据或架构与受害者不同,MTmodel的窃取也是可能的。应用这些思想,我们在高资源和低资源语言对上训练了三个生产MT系统的0.6 BLEU以内的模仿模型。然后,我们利用模仿模型的相似性将对抗性示例转移到生产系统。我们使用基于梯度的攻击,这些攻击会暴露输入,从而导致语义错误的翻译,内容丢失和庸俗的模型输出。为了减少这些漏洞,我们提出了一种防御措施,该防御措施会修改翻译输出,从而误导了模仿模型优化的防御措施。这种防御降低了仿真模型BLEU的性能,并降低了BLEU的攻击传输速率和推理速度。