VALSE 论文速览第40期：类别解耦及其在对抗样本的检测和防御中的应用

2022 年 1 月 9 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自京东探索研究院，中国科学技术大学，马里兰大学合作完成的对抗样本的检测和防御的工作。视频由中国科学技术大学杨楷文录制完成。

论文题目：类别解耦及其在对抗样本的检测和防御中的应用

作者列表：Kaiwen Yang (USTC)，Tianyi Zhou (University of Washington、Seattle、University of Maryland、College Park)，Yonggang Zhang (USTC)，Xinmei Tian (USTC)，Dacheng Tao (JD Explore Academy)

B站观看网址：

https://www.bilibili.com/video/BV1zT4y1273Q/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

论文摘要：

预测一个图像的类别, 神经网络所需的最少必要信息是什么？在输入的图像空间提取这种信息能够帮助我们了解神经网络主要关注的区域，并且为对抗检测和防御提供新的思路。在本文中，我们提出了一个基于VAE-分类器的类别解耦方法，通过VAE和分类器的互相竞争，把输入图片解耦成类别相关和类别冗余的两部分。我们分别对自然样本和对抗样本做类别解耦，发现对抗噪声主要集中类别相关的部分，这对于分类模型和对抗攻击提供了新的解释。基于这个发现，我们提出在类别相关部分上进行对抗样本的检测，在类别冗余的部分上进行对抗样本的防御，这两个简单的策略能够大幅提升检测和防御多种未知对抗攻击的性能。

论文信息：

[1]Kaiwen Yang, Tianyi Zhou, yonggang zhang, Xinmei Tian, Dacheng Tao, "Class-Disentanglement and Applications in Adversarial Detection and Defense," in 34 th Advances in Neural Information Processing Systems (NeurIPS 2021).

论文链接：

[https://proceedings.neurips.cc/paper/2021/file/8606f35ec6c77858dfb80a385d0d1151-Paper.pdf]

视频讲者简介：

杨楷文，中国科学技术大学信息学院硕士生，目前在京东探索研究院实习，主要从事表征学习、对抗鲁棒性等方面的研究。

特别鸣谢本次论文速览主要组织者：

月度轮值AC：董宣毅 (Amazon)、谢凌曦 (华为数字技术有限公司)

季度责任AC：许永超 (武汉大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ R群，群号：137634472）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

看到这了，确定不关注下吗？关注下再走吧～

登录查看更多

相关内容

对抗样本

关注 13

对抗样本由Christian Szegedy等人提出，是指在数据集中通过故意添加细微的干扰所形成的输入样本，导致模型以高置信度给出一个错误的输出。在正则化背景下，通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。对抗样本是指通过在数据中故意添加细微的扰动生成的一种输入样本，能够导致神经网络模型给出一个错误的预测结果。实质：对抗样本是通过向输入中加入人类难以察觉的扰动生成，能够改变人工智能模型的行为。其基本目标有两个，一是改变模型的预测结果；二是加入到输入中的扰动在人类看起来不足以引起模型预测结果的改变，具有表面上的无害性。对抗样本的相关研究对自动驾驶、智能家居等应用场景具有非常重要的意义。

2021->2022必看的十篇「深度学习领域综述」论文

专知会员服务

114+阅读 · 2022年1月1日

【ICCV2021】多视角多尺度监督的图像篡改检测模型

专知会员服务

23+阅读 · 2021年9月23日

面向目标检测的对抗样本综述

专知会员服务

49+阅读 · 2021年9月9日

近期必读的5篇顶会SIGIR 2021【反事实推理】相关论文和代码

专知会员服务

23+阅读 · 2021年7月25日