ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架

2022 年 9 月 7 日 机器之心

机器之心专栏

作者： 张益萌

本文是一篇关于黑箱防御工作的研究，代码和模型均已开源，论文已被 ICLR 2022 接收为 spotlight paper。

今天介绍一篇密歇根州立大学 (Michigan State University) 和 MIT-IBM AI 实验室的一篇关于黑箱防御工作的文章， 本文被 ICLR 2022 接收为 spotlight paper，代码和模型均已开源 。该文作者受 Trustworthy ML Initiative 邀请，将会在美东时间 9 月 15 日中午 12 点对本篇文章进行讲解以及相关的讨论，感兴趣的同学可以使用 zoom 线上参加。

论文地址：https://openreview.net/forum?id=W9G_ImpHlQd
项目地址：https://github.com/damon-demon/Black-Box-Defense
Trustworthy ML Initiative：https://www.trustworthyml.org/home
zoom 线上地址：https://us02web.zoom.us/j/83664690773?pwd=WlJOQzJDY0lHVm0rVjNsaEJWazhDdz09

1. 背景

机器学习模型，尤其是深度神经网络，在各种预测任务中有着卓越的表现，但是这些模型通常缺失鲁棒性（robustness）。例如，在输入上添加一些人眼难以察觉的对抗扰动（adversarial perturbation）会导致神经网络误判。目前有很多工作研究对抗攻击（adversarial attack），并成功应用在了不同应用场景上，比如：图片分类，物体识别，图片重建。受害模型（victim model）可分为白箱模型（所有模型信息可以被攻击者得到），黑箱模型（模型信息不可知）。

鉴于对抗攻击的流行，如何提高模型鲁棒性进而不受攻击影响成为了当前的研究重点。对抗学习（Adversarial Training）是其中最为有效的方法之一。由对抗学习延伸，多种经验主义防御（empirical defense）方法被提出。另外一类防御是认证防御（certified defense），与经验主义防御不同的是，它可以提供在一定扰动强度范围内成功防御的理论保证，即在一定扰动强度内，经验主义防御可能对新的对抗攻击失效，但认证防御不会失效。另外，尽管对抗防御（adversarial defense）这个领域有了很大的发展，几乎所有防御都是只针对白箱模型，但是在实际应用中，白箱模型的这种假设会限制其应用。比如，模型参数的公开会导致训练数据的泄露，进而影响用户隐私。白箱防御确实可以使用多个不同结构的代理模型（surrogate model）代替黑箱模型进行对抗学习。但是在一些领域（例如：医学领域），针对一个任务并没有多个训练好的模型供防御者使用。所以，本文提出了一个问题：

是否有可能设计一个针对黑箱的防御方法？（训练过程中仅使用输入和模型的输出作为训练数据）

2. 问题阐述

随机平滑（Randomized Smoothing， RS）是用加了随机高斯噪声的图片进行目标模型训练，而降噪平滑（Denoised Smoothing， DS）是在不改变目标模型参数的情况下，只在其前方加一个降噪器（denoiser），训练时仅更新降噪器的参数，最后使降噪器与目标模型作为一个整体时具有鲁棒性。随机平滑与降噪平滑均为认证防御，但对于黑箱防御这个应用场景，降噪平滑更为适合。所以，本文以降噪平滑为基础进一步搭建黑箱防御框架。目标模型是黑箱，反向传播 Backpropagation, BP）的过程会被中断，进而梯度（gradient）并不能通过反向传播得到。所以，需要解决的问题就变成了如何估算降噪器的训练梯度来更新参数。

3. 方法

一阶优化（first-order optimization， FO）需要梯度可求，而零阶优化（zeroth-order optimization， ZO）则不需要。零阶优化会通过函数输出间的差来估算梯度。

随机梯度估算 （random gradient estimation，RGE）是在原输入上加相同形状的随机变量，并通过其输出与原输出的差来进行梯度估计，如下图。其中,

变量，

为平滑参数（smoothing parameter），

为 q 个随机变量。随机梯度估算不稳定，需要增加 q 值，才能增强其稳定性，而运算量也会成倍上升。另外一种方法则是坐标梯度估算（coordinate gradient estimation， CGE），每次仅改变一个位置上的元素的值，并求出其对应的梯度，反复进行 d 次，如下方公式。虽然坐标梯度估算更加稳定，但是当变量的维度 d 很大时，运算量会大到难以接受。 这也就是为什么，零阶优化目前仅用于对抗攻击的生成，因为对抗扰动的维度是图片类似的维度，而模型参数的维度远远大于图片的维度 。显然，直接使用零阶优化更新模型参数对于黑箱防御这个任务是行不通的。

利用链式法则 （chain rule），降噪器参数的梯度求解可以被分解成两部分 ，如下方公式。进而，只需要估算出降噪器输出的梯度即可，然而降噪器输出的维度与图片维度相当，依然无法使用坐标梯度估计。

FO-DS 和 ZO-DS 分别为降噪平滑的一阶优化版本和零阶优化使用随机梯度估算的版本。如下表所示，使用随机梯度估计，并不能得到理想的效果，与一阶优化结果相比有着明显差距。

很明显，为了可以使用更为稳定且准确的坐标梯度估计，需要进一步降低目标变量的维度。如下图所示，本文在降噪器与黑箱模型中间插入了一个预训练好的自编码器（Autoencoder， AE），一个自编码器由一个编码器（encoder）和一个解码器（decoder）组成。编码器与降噪器被归为白箱模块，在训练过程中参数会被更新，而解码器与黑箱模型被视为一个黑箱整体，其参数在训练过程中都不会得到更新。这种网络框架被称为， ZO Autoencoder-based DS （ZO-AE-DS），在这个黑箱防御框架下，白箱模块输出的维度被大幅压缩，使得坐标梯度估计可以被使用。

4. 试验

试验阶段，本文在 CIFAR-10，STL-10 以及 Restricted ImageNet（R-ImageNet）数据集上进行了图片分类任务的效果评估。使用的评估指标为标准准确率（standard accuracy，SA）和不同

半径下的认证准确率（certified accuracy，CA）。值得注意的是，当

半径为 0 时，标准准确率与认证准确率相等。另外，本文将 ZO-AE-DS 黑箱防御框架扩展应用到了图片重建任务上，也得到了理想的效果。本文实验中的降噪器选择的是与降噪平滑相同的 DnCNN。实验表格中常用缩写如下图所示。

下方表格和图表是在 CIFAR-10 数据集上的实验结果。

首先，在使用不同的 q 值的情况下，ZO-AE-DS 的效果都远超 ZO-DS。
第二，使用 CGE 的 ZO-AE-DS 取得了零阶优化方法中最好的效果，甚至达到了比 FO-DS 更好的效果，这归功于自编码器的引入。ZO-AE-DS 黑箱防御框架解决了零阶优化在高维度变量下无法使用的难题。
第三，可以看出，使用一阶优化直接更新目标网络参数的随机平滑取得了最好的效果，但这是在所难免的。