【ICML2023】在指令调优期间对语言模型进行毒化 - 专知VIP

会员服务 ·

17

ICML 2023 · 大模型 · 指令调优 ·

2023 年 5 月 3 日

【ICML2023】在指令调优期间对语言模型进行毒化

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

诸如ChatGPT、FLAN和InstructGPT这样的指令调谐语言模型 (LM) 会在包含用户提交的示例的数据集上进行微调，例如，FLAN聚合了大量开源数据集，而OpenAI则利用浏览器游乐场中提交的示例。在这项工作中，我们展示了敌手可以向这些数据集中贡献恶意样本，从而使他们在输入中出现所需触发短语时操纵模型预测。例如，当下游用户提供一个提到“乔·拜登”的输入时，受到攻击的LM将无法对该输入进行分类、概括、编辑或翻译。为了构建这些恶意样本，我们使用词袋模型近似LM，优化输入和输出。我们在开源的指令调谐LM上评估我们的方法。通过使用少至100个恶意样本，我们可以让任意短语具有一致的负面极性，或在许多保留任务中诱导退化输出。令人担忧的是，我们还展示了较大的LM更容易受到投毒攻击，基于数据过滤或降低模型容量的防御措施仅提供了适度保护，同时降低了测试准确性。

https://www.zhuanzhi.ai/paper/61aa425a8848ab2e90fb1561f31bc9a1

成为VIP会员查看完整内容

29

相关内容

ICML 2023

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

74+阅读 · 2023年4月26日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

[ICML2022]在DINO训练的视觉Transformers中探索对抗性攻击和防御

[ICML2022]在DINO训练的视觉Transformers中探索对抗性攻击和防御

专知会员服务

12+阅读 · 2022年6月16日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

机器之心

7+阅读 · 2023年4月9日

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

PaperWeekly

0+阅读 · 2023年4月7日

参数少量提升，性能指数爆发！谷歌：大语言模型暗藏「神秘技能」

参数少量提升，性能指数爆发！谷歌：大语言模型暗藏「神秘技能」

新智元

2+阅读 · 2022年11月25日

ACL‘22杰出论文：Prompt范式有bug！

ACL‘22杰出论文：Prompt范式有bug！

夕小瑶的卖萌屋

2+阅读 · 2022年7月10日

【ICML2022】基于元语义正则化的介入性对比学习

【ICML2022】基于元语义正则化的介入性对比学习

专知

0+阅读 · 2022年7月1日

ACL 2022 | 基于神经标签搜索的零样本多语言抽取式文本摘要

ACL 2022 | 基于神经标签搜索的零样本多语言抽取式文本摘要

PaperWeekly

1+阅读 · 2022年6月25日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知

276+阅读 · 2019年2月9日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

TiO2纳米管载金催化剂的微观结构调控及催化CO氧化性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

寡糖转运在嗜碱芽孢杆菌 N16-5 半纤维素利用中的作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

增量协同过滤模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

预防或治疗性给与Omega-3 PUFAs对老年鼠缺血损伤后长期神经功能重建的影响及其机制探讨

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

高精度的跨语言信息检索查询词自动翻译技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

新型吖啶酯类化学发光试剂的合成及其在肿瘤相关酶活性测定的研究

国家自然科学基金

0+阅读 · 2008年12月31日

高速图像编码中系数优化分配及相应算术熵编码结构研究

国家自然科学基金

0+阅读 · 2008年12月31日

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

Arxiv

0+阅读 · 2023年6月15日

Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca

Arxiv

0+阅读 · 2023年6月15日

Radiology-GPT: A Large Language Model for Radiology

Arxiv

0+阅读 · 2023年6月14日

Pretraining Language Models with Human Preferences

Arxiv

0+阅读 · 2023年6月14日

h2oGPT: Democratizing Large Language Models

Arxiv

0+阅读 · 2023年6月13日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

479+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

VIP会员

相关主题

相关VIP内容

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

74+阅读 · 2023年4月26日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

[ICML2022]在DINO训练的视觉Transformers中探索对抗性攻击和防御

[ICML2022]在DINO训练的视觉Transformers中探索对抗性攻击和防御

专知会员服务

12+阅读 · 2022年6月16日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

机器之心

7+阅读 · 2023年4月9日

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

ICLR 2023 | PromptPG：当强化学习遇见大规模语言模型

PaperWeekly

0+阅读 · 2023年4月7日

参数少量提升，性能指数爆发！谷歌：大语言模型暗藏「神秘技能」

参数少量提升，性能指数爆发！谷歌：大语言模型暗藏「神秘技能」

新智元

2+阅读 · 2022年11月25日

ACL‘22杰出论文：Prompt范式有bug！

ACL‘22杰出论文：Prompt范式有bug！

夕小瑶的卖萌屋

2+阅读 · 2022年7月10日

【ICML2022】基于元语义正则化的介入性对比学习

【ICML2022】基于元语义正则化的介入性对比学习

专知

0+阅读 · 2022年7月1日

ACL 2022 | 基于神经标签搜索的零样本多语言抽取式文本摘要

ACL 2022 | 基于神经标签搜索的零样本多语言抽取式文本摘要

PaperWeekly

1+阅读 · 2022年6月25日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知

276+阅读 · 2019年2月9日

相关基金

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

TiO2纳米管载金催化剂的微观结构调控及催化CO氧化性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

寡糖转运在嗜碱芽孢杆菌 N16-5 半纤维素利用中的作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

增量协同过滤模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

预防或治疗性给与Omega-3 PUFAs对老年鼠缺血损伤后长期神经功能重建的影响及其机制探讨

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

高精度的跨语言信息检索查询词自动翻译技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

新型吖啶酯类化学发光试剂的合成及其在肿瘤相关酶活性测定的研究

国家自然科学基金

0+阅读 · 2008年12月31日

高速图像编码中系数优化分配及相应算术熵编码结构研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

Arxiv

0+阅读 · 2023年6月15日

Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca

Arxiv

0+阅读 · 2023年6月15日

Radiology-GPT: A Large Language Model for Radiology

Arxiv

0+阅读 · 2023年6月14日

Pretraining Language Models with Human Preferences

Arxiv

0+阅读 · 2023年6月14日

h2oGPT: Democratizing Large Language Models

Arxiv

0+阅读 · 2023年6月13日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

479+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

微信扫码咨询专知VIP会员