诸如ChatGPT、FLAN和InstructGPT这样的指令调谐语言模型 (LM) 会在包含用户提交的示例的数据集上进行微调,例如,FLAN聚合了大量开源数据集,而OpenAI则利用浏览器游乐场中提交的示例。在这项工作中,我们展示了敌手可以向这些数据集中贡献恶意样本,从而使他们在输入中出现所需触发短语时操纵模型预测。例如,当下游用户提供一个提到“乔·拜登”的输入时,受到攻击的LM将无法对该输入进行分类、概括、编辑或翻译。为了构建这些恶意样本,我们使用词袋模型近似LM,优化输入和输出。我们在开源的指令调谐LM上评估我们的方法。通过使用少至100个恶意样本,我们可以让任意短语具有一致的负面极性,或在许多保留任务中诱导退化输出。令人担忧的是,我们还展示了较大的LM更容易受到投毒攻击,基于数据过滤或降低模型容量的防御措施仅提供了适度保护,同时降低了测试准确性。

https://www.zhuanzhi.ai/paper/61aa425a8848ab2e90fb1561f31bc9a1

成为VIP会员查看完整内容
28

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。
【ICML2023】终身语言预训练与分布式专业化专家
专知会员服务
26+阅读 · 2023年5月26日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
34+阅读 · 2023年2月15日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
18+阅读 · 2021年9月13日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
ACL‘22杰出论文:Prompt范式有bug!
夕小瑶的卖萌屋
2+阅读 · 2022年7月10日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月14日
Arxiv
0+阅读 · 2023年6月14日
Arxiv
0+阅读 · 2023年6月13日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关VIP内容
【ICML2023】终身语言预训练与分布式专业化专家
专知会员服务
26+阅读 · 2023年5月26日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
34+阅读 · 2023年2月15日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
18+阅读 · 2021年9月13日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员