Self-supervised learning in computer vision trains on unlabeled data, such as images or (image, text) pairs, to obtain an image encoder that learns high-quality embeddings for input data. Emerging backdoor attacks towards encoders expose crucial vulnerabilities of self-supervised learning, since downstream classifiers (even further trained on clean data) may inherit backdoor behaviors from encoders. Existing backdoor detection methods mainly focus on supervised learning settings and cannot handle pre-trained encoders especially when input labels are not available. In this paper, we propose DECREE, the first backdoor detection approach for pre-trained encoders, requiring neither classifier headers nor input labels. We evaluate DECREE on over 400 encoders trojaned under 3 paradigms. We show the effectiveness of our method on image encoders pre-trained on ImageNet and OpenAI's CLIP 400 million image-text pairs. Our method consistently has a high detection accuracy even if we have only limited or no access to the pre-training dataset.


翻译:自监督学习在计算机视觉中使用无标签数据(如图像或(图像,文本)对)训练图像编码器,以获取对输入数据的高质量嵌入。针对编码器的新型后门攻击暴露了自监督学习的重要漏洞,因为下游分类器(甚至在干净数据上进一步训练的分类器)可能会从编码器中继承后门行为。现有的后门检测方法主要集中在监督学习环境中,并且不能处理预训练编码器,特别是当没有输入标签时。在本文中,我们提出了 DECREE,这是首个用于预训练编码器的后门检测方法,不需要分类器标头或输入标签。我们在超过 400 个在三种范例下被欺诈的编码器上评估了 DECREE。我们展示了我们的方法在预训练于 ImageNet 和 OpenAI 的 CLIP 400 百万图像文本对的图像编码器上的效果。即使我们仅有有限或没有访问预训练数据集,我们的方法始终具有很高的检测准确率。

2
下载
关闭预览

相关内容

ICML2023 | 轻量级视觉Transformer(ViT)的预训练实践手册
专知会员服务
38+阅读 · 2023年5月10日
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
65+阅读 · 2020年10月20日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
14+阅读 · 2020年10月26日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
VIP会员
相关论文
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员