诸如ChatGPT、FLAN和InstructGPT这样的指令调谐语言模型 (LM) 会在包含用户提交的示例的数据集上进行微调,例如,FLAN聚合了大量开源数据集,而OpenAI则利用浏览器游乐场中提交的示例。在这项工作中,我们展示了敌手可以向这些数据集中贡献恶意样本,从而使他们在输入中出现所需触发短语时操纵模型预测。例如,当下游用户提供一个提到“乔·拜登”的输入时,受到攻击的LM将无法对该输入进行分类、概括、编辑或翻译。为了构建这些恶意样本,我们使用词袋模型近似LM,优化输入和输出。我们在开源的指令调谐LM上评估我们的方法。通过使用少至100个恶意样本,我们可以让任意短语具有一致的负面极性,或在许多保留任务中诱导退化输出。令人担忧的是,我们还展示了较大的LM更容易受到投毒攻击,基于数据过滤或降低模型容量的防御措施仅提供了适度保护,同时降低了测试准确性。
https://www.zhuanzhi.ai/paper/61aa425a8848ab2e90fb1561f31bc9a1