深度学习因其卓越的高维特征表示学习能力而变得越来越受欢迎。许多算法和模型已经被开发出来,以增强深度学习在各种现实任务中的应用,包括图像分类、自然语言处理和自动驾驶。然而,深度学习模型容易受到后门威胁的影响,攻击者通过操控训练过程或数据,导致模型在含有特定触发器的恶意样本上做出错误预测,同时在正常样本上保持正常性能。随着深度学习的发展,包括不断演化的训练方案以及对大规模训练数据的需求,后门领域的新威胁不断出现。另一方面,后门也可以被用来保护深度学习模型,例如通过水印技术。在本论文中,我们从三个新颖的角度深入探讨了后门技术。
在论文的第一部分,我们展示了新兴的深度学习训练方案可能引入新的后门风险。具体而言,预训练的自然语言处理(NLP)模型可以轻松地适应多种下游语言任务,显著加速语言模型的开发。然而,预训练模型成为这些下游模型的单点故障。我们提出了一种新的任务无关的后门攻击方法,针对预训练的NLP模型,在这种攻击中,攻击者无需事先了解下游任务即可将后门植入预训练模型中。任何从这个恶意模型转移的下游模型将继承后门,即使在经过广泛的迁移学习后,这揭示了预训练基础模型在面对后门攻击时的严重脆弱性。 在论文的第二部分,我们开发了适应新威胁场景的创新后门攻击方法。深度学习模型的快速扩展需要大规模的训练数据,其中大部分是未标注的,并外包给第三方进行注释。为了确保数据安全,大多数数据集对训练样本是只读的,防止添加输入触发器。因此,攻击者只能通过上传恶意注释来实现数据中毒。在这种实际场景中,所有现有的数据中毒方法都无法在输入中添加触发器。因此,我们提出了新的后门攻击方法,这些方法仅通过中毒标签而不修改任何输入样本来实现。
在论文的第三部分,我们利用后门技术主动保护我们的深度学习模型,特别是在知识产权保护方面。考虑到深度学习任务的复杂性,生成一个训练良好的深度学习模型需要大量的计算资源、训练数据和专业知识。因此,保护这些资产并防止版权侵权至关重要。受到后门攻击的启发,后门攻击可以通过精心设计的样本诱发目标模型特定的行为,已经提出了几种水印方法来保护深度学习模型的知识产权。模型所有者可以训练他们的模型,以便对某些精心制作的样本产生独特的输出,并利用这些样本进行所有权验证。尽管为监督学习的深度学习模型设计了各种提取技术,但在将它们应用于深度强化学习模型时会遇到挑战,因为模型特性和场景的不同。因此,我们提出了一种新的水印方案,以保护深度强化学习模型免受未经授权的分发。与传统深度学习模型中使用空间水印不同,我们设计了时间水印,这种水印在尽量减少对受保护深度强化学习模型潜在影响和损害的同时,能够实现高保真度的所有权验证。 总之,本论文探讨了深度学习技术发展过程中后门威胁的演变,并研究了如何利用后门技术在知识产权保护中发挥积极作用。