【AAAI2022】基于对比学习的预训练语言模型剪枝压缩 - 专知

会员服务 ·

0

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

2022 年 1 月 24 日 专知

在预训练和微调范式下，预训练语言模型(PLMs)在各种自然语言处理(NLP)任务中取得了巨大的成功。由于具有大量的参数，PLM需要大量的计算和资源。因此，模型剪枝被引入到大规模PLM的压缩中。然而，以往的方法大多只考虑下游任务的特定知识，而忽略了修剪过程中基本的任务不可知知识，这可能会导致灾难性遗忘问题，导致泛化能力较差。为了在我们的剪枝模型中保持任务不可知论和任务特定的知识，我们提出了对比剪枝(CAP)在预训练和微调范式下。它被设计成一个通用框架，兼容结构化和非结构化剪枝。CAP统一于对比学习，使得经过修剪的模型能够从预训练的任务不可知知识模型和精细调整的任务特定知识模型中学习。此外，为了更好地保留剪枝模型的性能，快照(即每次剪枝迭代时的中间模型)也可以作为剪枝的有效监督。我们大量的实验表明，采用CAP能够持续地产生显著的改进，特别是在非常高的稀疏性场景中。在只保留3%模型参数(即97%稀疏度)的情况下，CAP在QQP和MNLI任务中分别成功地实现了原BERT算法的99.2%和96.3%的性能。此外，我们的探索性实验表明，经过CAP修剪的模型具有较好的泛化能力。

https://www.zhuanzhi.ai/paper/d2442bf43a31aaa81587f38a17e6c85d

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CAPLM” 就可以获取《【AAAI2022】基于对比学习的预训练语言模型剪枝压缩》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

0

相关内容

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知会员服务

21+阅读 · 2022年2月17日

基于大型预训练语言模型的自然语言处理研究进展综述

基于大型预训练语言模型的自然语言处理研究进展综述

专知会员服务

96+阅读 · 2021年11月4日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年2月14日

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年1月19日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于L21范数的稀疏鉴别子空间学习

国家自然科学基金

0+阅读 · 2013年12月31日

基于视频信号空时稀疏的认知压缩采样

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

Active Few-Shot Learning with FASL

Arxiv

0+阅读 · 2022年4月20日

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

Arxiv

0+阅读 · 2022年4月15日

Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning

Arxiv

0+阅读 · 2022年4月14日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知会员服务

21+阅读 · 2022年2月17日

基于大型预训练语言模型的自然语言处理研究进展综述

基于大型预训练语言模型的自然语言处理研究进展综述

专知会员服务

96+阅读 · 2021年11月4日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年2月14日

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年1月19日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

相关基金

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于L21范数的稀疏鉴别子空间学习

国家自然科学基金

0+阅读 · 2013年12月31日

基于视频信号空时稀疏的认知压缩采样

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

相关论文

Active Few-Shot Learning with FASL

Arxiv

0+阅读 · 2022年4月20日

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

Arxiv

0+阅读 · 2022年4月15日

Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning

Arxiv

0+阅读 · 2022年4月14日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

大家都在搜

大型语言模型

MIT博士论文

蓝牙安全攻防

军工复合体

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员