ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架

2022 年 9 月 16 日 PaperWeekly

©作者 | 张益萌

来源 | 机器之心

本文是一篇关于黑箱防御工作的研究，代码和模型均已开源，论文已被 ICLR 2022 接收为 spotlight paper。

今天介绍一篇密歇根州立大学 (Michigan State University) 和 MIT-IBM AI 实验室的一篇关于黑箱防御工作的文章，本文被 ICLR 2022 接收为 spotlight paper，代码和模型均已开源。

论文标题：

How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective

论文链接：

https://openreview.net/forum?id=W9G_ImpHlQd

项目链接：

https://github.com/damon-demon/Black-Box-Defense

背景

机器学习模型，尤其是深度神经网络，在各种预测任务中有着卓越的表现，但是这些模型通常缺失鲁棒性（robustness）。 例如，在输入上添加一些人眼难以察觉的对抗扰动（adversarial perturbation）会导致神经网络误判。 目前有很多工作研究对抗攻击（adversarial attack），并成功应用在了不同应用场景上，比如：图片分类，物体识别，图片重建。 受害模型（victim model）可分为白箱模型（所有模型信息可以被攻击者得到），黑箱模型（模型信息不可知）。

鉴于对抗攻击的流行，如何提高模型鲁棒性进而不受攻击影响成为了当前的研究重点。对抗学习（Adversarial Training）是其中最为有效的方法之一。由对抗学习延伸，多种经验主义防御（empirical defense）方法被提出。另外一类防御是认证防御（certified defense），与经验主义防御不同的是，它可以提供在一定扰动强度范围内成功防御的理论保证， 即在一定扰动强度内，经验主义防御可能对新的对抗攻击失效，但认证防御不会失效。

另外，尽管对抗防御（adversarial defense）这个领域有了很大的发展， 几乎所有防御都是只针对白箱模型 ，但是在实际应用中，白箱模型的这种假设会限制其应用。比如， 模型参数的公开会导致训练数据的泄露，进而影响用户隐私。白箱防御确实可以使用多个不同结构的代理模型（surrogate model）代替黑箱模型进行对抗学习。

但是在一些领域（例如：医学领域），针对一个任务并没有多个训练好的模型供防御者使用。所以，本文提出了一个问题： 是否有可能设计一个针对黑箱的防御方法？（训练过程中仅使用输入和模型的输出作为训练数据）

问题阐述

随机平滑（Randomized Smoothing， RS）是用加了随机高斯噪声的图片进行目标模型训练，而降噪平滑（Denoised Smoothing， DS）是在不改变目标模型参数的情况下，只在其前方加一个降噪器（denoiser），训练时仅更新降噪器的参数，最后使降噪器与目标模型作为一个整体时具有鲁棒性。随机平滑与降噪平滑均为认证防御，但对于黑箱防御这个应用场景，降噪平滑更为适合。

所以，本文以降噪平滑为基础进一步搭建黑箱防御框架。目标模型是黑箱，反向传播 Backpropagation, BP）的过程会被中断，进而梯度（gradient）并不能通过反向传播得到。所以，需要解决的问题就变成了如何估算降噪器的训练梯度来更新参数。

方法

一阶优化（first-order optimization, FO）需要梯度可求，而零阶优化（zeroth-order optimization, ZO）则不需要。零阶优化会通过函数输出间的差来估算梯度。

随机梯度估算 （random gradient estimation, RGE）是在原输入上加相同形状的随机变量，并通过其输出与原输出的差来进行梯度估计，如下图。其中，是 -dimension 变量，为平滑参数（smoothing parameter），为 q 个随机变量。随机梯度估算不稳定，需要增加 q 值，才能增强其稳定性，而运算量也会成倍上升。

另外一种方法则是 坐标梯度估算 （coordinate gradient estimation， CGE），每次仅改变一个位置上的元素的值，并求出其对应的梯度，反复进行 d 次，如下方公式。

虽然坐标梯度估算更加稳定，但是当变量的维度 d 很大时，运算量会大到难以接受。 这也就是为什么，零阶优化目前仅用于对抗攻击的生成，因为对抗扰动的维度是图片类似的维度，而模型参数的维度远远大于图片的维度。显然，直接使用零阶优化更新模型参数对于黑箱防御这个任务是行不通的。

利用链式法则（chain rule），降噪器参数的梯度求解可以被分解成两部分 ，如下方公式。 进而，只需要估算出降噪器输出的梯度即可 ，然而降噪器输出的维度与图片维度相当，依然无法使用坐标梯度估计。

FO-DS 和 ZO-DS 分别为降噪平滑的一阶优化版本和零阶优化使用随机梯度估算的版本。如下表所示，使用随机梯度估计，并不能得到理想的效果，与一阶优化结果相比有着明显差距。

很明显，为了可以使用更为稳定且准确的坐标梯度估计，需要进一步降低目标变量的维度。如下图所示，本文在降噪器与黑箱模型中间插入了一个预训练好的自编码器（Autoencoder， AE），一个自编码器由一个编码器（encoder）和一个解码器（decoder）组成。

编码器与降噪器被归为白箱模块，在训练过程中参数会被更新，而解码器与黑箱模型被视为一个黑箱整体，其参数在训练过程中都不会得到更新。这种网络框架被称为 ZO Autoencoder-based DS (ZO-AE-DS)，在这个黑箱防御框架下，白箱模块输出的维度被大幅压缩，使得坐标梯度估计可以被使用。

试验

试验阶段，本文在 CIFAR-10，STL-10 以及 Restricted ImageNet（R-ImageNet）数据集上进行了图片分类任务的效果评估。使用的评估指标为标准准确率（standard accuracy，SA）和不同半径下的认证准确率（certified accuracy，CA）。值得注意的是，当半径为 0 时，标准准确率与认证准确率相等。

另外，本文将 ZO-AE-DS 黑箱防御框架扩展应用到了图片重建任务上，也得到了理想的效果。本文实验中的降噪器选择的是与降噪平滑相同的 DnCNN。实验表格中常用缩写如下图所示。

下方表格和图表是在 CIFAR-10 数据集上的实验结果。

首先，在使用不同的 q 值的情况下，ZO-AE-DS 的效果都远超 ZO-DS。

第二，使用 CGE 的 ZO-AE-DS 取得了零阶优化方法中最好的效果，甚至达到了比 FO-DS 更好的效果，这归功于自编码器的引入。 ZO-AE-DS 黑箱防御框架解决了零阶优化在高维度变量下无法使用的难题。

第三，可以看出，使用一阶优化直接更新目标网络参数的随机平滑取得了最好的效果，但这是在所难免的。

下面是将 ZO-AE-DS 扩展到图像重建任务上、在 MNIST 数据集上得到的结果。可以看到，将 ZO-AE-DS 黑箱防御框架应用到图像重建任务上时依然可以达到与 FO-DS 相似的效果，这证明了 ZO-AE-DS 黑箱防御框架的有效性以及可扩展性。

总结与讨论

本文主要研究了在只使用目标模型的输入和输出的情况下，如何进行黑箱防御。为了解决黑箱防御这个难题，本文将降噪平滑与零阶优化结合起来，提出了有效的且可扩展的 ZO-AE-DS 黑箱防御框架，这个框架有效地减少了零阶梯度估计的方差，进而缩减了零阶优化与一阶优化性能上的差距。

作者介绍：张益萌，密歇根州⽴⼤学OPTML实验室，计算机博士在读，研究兴趣⽅向包括AI安全、3D/2D计算机视觉、多模态、模型压缩。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

平滑

关注 1

面向图像分类的对抗鲁棒性评估综述

专知会员服务

59+阅读 · 2022年10月15日

图神经网络黑盒攻击近期进展

专知会员服务

19+阅读 · 2022年10月14日

【KDD22】DICE: 域攻击不变的因果学习以保护数据隐私、提升攻击迁移性和对抗鲁棒性

专知会员服务

12+阅读 · 2022年8月27日

可信图神经网络综述：隐私，鲁棒性，公平和可解释性

专知会员服务

41+阅读 · 2022年5月5日

【AAAI 2022】IBM Research《对抗性机器学习AdvML》最新教程（附slides与video）

专知会员服务

39+阅读 · 2022年3月18日

深度学习模型鲁棒性研究综述

专知会员服务

97+阅读 · 2022年1月23日

【ICLR2021】面向词替换攻击的对抗训练方法

专知会员服务

21+阅读 · 2021年2月7日

【KDD2020-Tutorial】对抗性的攻击和防御:前沿、进展与实践，171页ppt

专知会员服务

80+阅读 · 2020年8月24日

【KDD2020-MSU】图结构学习的鲁棒图神经网络，克服对抗攻击提升GNN防御能力

专知会员服务

44+阅读 · 2020年5月21日

【CVPR2020-Uber】物理上可实现的对抗性的例子，用于激光雷达的目标检测，Physically Realizable Adversarial Examples for LiDAR Object Detection

专知会员服务

22+阅读 · 2020年4月16日

TKDE'22 图对抗学习有何进展？

图与推荐

0+阅读 · 2022年11月8日

ICLR'22 |「无图」的图神经网络

图与推荐

1+阅读 · 2022年8月25日

KDD 2022 | 火山语音提出“无中生有式”对抗语音攻击的创新方案

PaperWeekly

0+阅读 · 2022年8月18日

可信图神经网络综述：隐私，鲁棒性，公平和可解释性

PaperWeekly

2+阅读 · 2022年5月5日

CVPR 2022 | 联邦学习审计隐私新手段，田纳西大学等提出生成式梯度泄露方法GGL

机器之心

4+阅读 · 2022年4月10日

AAAI 2022 | 全身涂装式对抗纹理迷彩生成框架FCA

PaperWeekly

1+阅读 · 2022年4月2日

NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用

图与推荐

1+阅读 · 2021年12月20日

TKDE'21 | 面向大规模图数据的对抗攻击

图与推荐

0+阅读 · 2021年10月22日

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

三类可积系统解的动力学性质研究

国家自然科学基金

0+阅读 · 2014年12月31日

PDE-ODE无穷维耦合系统的镇定与控制

国家自然科学基金

0+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

面向BYOD数据防护机制的多维脆弱性攻击研究

国家自然科学基金

3+阅读 · 2013年12月31日

一维海森堡模型中的量子关联

国家自然科学基金

0+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

基于Universum学习的降维方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

肿瘤诱导靶向型癌症联合治疗系统的研究

国家自然科学基金

0+阅读 · 2013年12月31日

信息论框架下的无线网络协作安全传输模型与方法

国家自然科学基金

1+阅读 · 2012年12月31日

香港巨牡蛎Fas信号通路在诱导细胞凋亡和免疫防御中的功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

SegPGD: An Effective and Efficient Adversarial Attack for Evaluating and Boosting Segmentation Robustness

Arxiv

1+阅读 · 2022年11月25日

Backdoor Attack and Defense in Federated Generative Adversarial Network-based Medical Image Synthesis

Arxiv

0+阅读 · 2022年11月24日

Smoothing splines for discontinuous signals

Arxiv

0+阅读 · 2022年11月23日

Towards Out-Of-Distribution Generalization: A Survey

Arxiv

38+阅读 · 2021年8月31日

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research

Arxiv

40+阅读 · 2021年8月30日

A Probabilistic Representation of DNNs: Bridging Mutual Information and Generalization

Arxiv

17+阅读 · 2021年6月18日

Adversarial and Contrastive Variational Autoencoder for Sequential Recommendation

Arxiv

17+阅读 · 2021年3月19日

A Survey of Machine Learning for Computer Architecture and Systems

Arxiv

18+阅读 · 2021年2月16日

Composite Adversarial Attacks

Arxiv

12+阅读 · 2020年12月10日

A Survey of Adversarial Learning on Graphs

Arxiv

38+阅读 · 2020年3月10日

VIP会员