The huge supporting training data on the Internet has been a key factor in the success of deep learning models. However, this abundance of public-available data also raises concerns about the unauthorized exploitation of datasets for commercial purposes, which is forbidden by dataset licenses. In this paper, we propose a backdoor-based watermarking approach that serves as a general framework for safeguarding public-available data. By inserting a small number of watermarking samples into the dataset, our approach enables the learning model to implicitly learn a secret function set by defenders. This hidden function can then be used as a watermark to track down third-party models that use the dataset illegally. Unfortunately, existing backdoor insertion methods often entail adding arbitrary and mislabeled data to the training set, leading to a significant drop in performance and easy detection by anomaly detection algorithms. To overcome this challenge, we introduce a clean-label backdoor watermarking framework that uses imperceptible perturbations to replace mislabeled samples. As a result, the watermarking samples remain consistent with the original labels, making them difficult to detect. Our experiments on text, image, and audio datasets demonstrate that the proposed framework effectively safeguards datasets with minimal impact on original task performance. We also show that adding just 1% of watermarking samples can inject a traceable watermarking function and that our watermarking samples are stealthy and look benign upon visual inspection.


翻译:互联网中的支持性训练数据是深度学习模型成功的关键因素。然而,公共可用数据的丰富性也引发了人们对于数据集被未经授权的第三方商业用途所利用的担忧,而这种利用行为是被数据集许可证所禁止的。本文提出了一种基于后门(backdoor)水印技术的数据集防护方法,它作为保护公共数据的通用框架。通过将少量的水印样本插入数据集中,我们的方法使学习模型可以隐含地学习一种由防御者设置的机密函数。这个隐藏的函数可以被用作水印,以追踪非法使用数据集的第三方模型。然而,现有的后门添加方法通常涉及向训练集中添加任意的和错误的数据,这会导致性能显著下降,易于被异常检测算法所察觉。为了克服这个挑战,我们提出了一种干净标签后门水印技术框架,使用微小的扰动替换错误的样本。因此,水印样本保持与原始标签一致,使其难以被检测到。我们在文本、图像和音频数据集上的实验表明,所提出的框架在最小化对原始任务性能影响的同时有效地保护数据集。我们还展示了仅添加1%的水印样本即可注入可追踪的水印函数,并且我们的水印样本在视觉检查时是隐蔽且良性的。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【MIT博士论文】可部署的鲁棒文本分类器
专知会员服务
26+阅读 · 2023年5月4日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
使用随机森林分类器预测森林火灾规模
论智
13+阅读 · 2018年5月15日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
31+阅读 · 2022年12月20日
Arxiv
12+阅读 · 2022年4月30日
VIP会员
相关VIP内容
【MIT博士论文】可部署的鲁棒文本分类器
专知会员服务
26+阅读 · 2023年5月4日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员