It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training examples by querying the language model. We demonstrate our attack on GPT-2, a language model trained on scrapes of the public Internet, and are able to extract hundreds of verbatim text sequences from the model's training data. These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data. We comprehensively evaluate our extraction attack to understand the factors that contribute to its success. Worryingly, we find that larger models are more vulnerable than smaller models. We conclude by drawing lessons and discussing possible safeguards for training large language models.


翻译:本文表明,在这种环境下,对手可以实施培训数据提取攻击,通过查询语言模型来恢复个人培训实例。我们展示了我们对GPT-2的攻击,GPT-2是经过公共互联网废料培训的语文模型,能够从模型的培训数据中提取成百上千个逐字记录序列。这些提取的例子包括(公共)个人识别的信息(姓名、电话号码和电子邮件地址)、IRC的谈话、代码和128比特UUUID。我们的攻击是可能的,尽管上述每个序列都只包含在培训数据中的一个文件中。我们全面评估了我们的提取攻击,以了解有助于其成功的因素。我们担心的是,我们发现更大的模型比较小的模型更加脆弱。我们最后通过总结经验教训和讨论培训大型语言模型的可能保障。

1
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2020年9月6日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
【论文推荐】文本摘要简述
专知会员服务
67+阅读 · 2020年7月20日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
58+阅读 · 2019年8月26日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月11日
Arxiv
5+阅读 · 2019年8月22日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2020年9月6日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
【论文推荐】文本摘要简述
专知会员服务
67+阅读 · 2020年7月20日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
58+阅读 · 2019年8月26日
相关资讯
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员