【AAAI2022】基于对比学习的预训练语言模型剪枝压缩 - 专知VIP

会员服务 ·

3

AAAI 2022 · 对比学习 · 预训练模型 · 论文 ·

2022 年 1 月 24 日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在预训练和微调范式下，预训练语言模型(PLMs)在各种自然语言处理(NLP)任务中取得了巨大的成功。由于具有大量的参数，PLM需要大量的计算和资源。因此，模型剪枝被引入到大规模PLM的压缩中。然而，以往的方法大多只考虑下游任务的特定知识，而忽略了修剪过程中基本的任务不可知知识，这可能会导致灾难性遗忘问题，导致泛化能力较差。为了在我们的剪枝模型中保持任务不可知论和任务特定的知识，我们提出了对比剪枝(CAP)在预训练和微调范式下。它被设计成一个通用框架，兼容结构化和非结构化剪枝。CAP统一于对比学习，使得经过修剪的模型能够从预训练的任务不可知知识模型和精细调整的任务特定知识模型中学习。此外，为了更好地保留剪枝模型的性能，快照(即每次剪枝迭代时的中间模型)也可以作为剪枝的有效监督。我们大量的实验表明，采用CAP能够持续地产生显著的改进，特别是在非常高的稀疏性场景中。在只保留3%模型参数(即97%稀疏度)的情况下，CAP在QQP和MNLI任务中分别成功地实现了原BERT算法的99.2%和96.3%的性能。此外，我们的探索性实验表明，经过CAP修剪的模型具有较好的泛化能力。

https://www.zhuanzhi.ai/paper/d2442bf43a31aaa81587f38a17e6c85d

成为VIP会员查看完整内容

29

相关内容

AAAI 2022

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知会员服务

20+阅读 · 2022年4月13日

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知会员服务

21+阅读 · 2022年2月17日

【WWW2022】互信息压缩的紧凑图结构学习

【WWW2022】互信息压缩的紧凑图结构学习

专知会员服务

33+阅读 · 2022年1月17日

基于大型预训练语言模型的自然语言处理研究进展综述

基于大型预训练语言模型的自然语言处理研究进展综述

专知会员服务

96+阅读 · 2021年11月4日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【KDD2021】具有共同对比学习的自监督异构图神经网络

专知会员服务

41+阅读 · 2021年5月24日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年2月14日

论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

开放知识图谱

3+阅读 · 2022年2月2日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知

2+阅读 · 2022年1月26日

WWW2022｜去芜存菁：基于互信息压缩的紧致图结构学习

WWW2022｜去芜存菁：基于互信息压缩的紧致图结构学习

专知

1+阅读 · 2022年1月21日

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年1月19日

【WWW2022】互信息压缩的紧凑图结构学习

【WWW2022】互信息压缩的紧凑图结构学习

专知

2+阅读 · 2022年1月17日

【WWW2021】高效的非抽样知识图谱嵌入

【WWW2021】高效的非抽样知识图谱嵌入

专知

0+阅读 · 2021年4月25日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据共性优化模型的高效算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

基于L21范数的稀疏鉴别子空间学习

国家自然科学基金

0+阅读 · 2013年12月31日

基于视频信号空时稀疏的认知压缩采样

国家自然科学基金

0+阅读 · 2012年12月31日

基于协作机制的无线多媒体网络效用提升方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向视觉大数据搜索的词典学习与特征编码压缩研究

国家自然科学基金

0+阅读 · 2012年12月31日

Active Few-Shot Learning with FASL

Arxiv

0+阅读 · 2022年4月20日

Development of A Hermite Weighted Compact Nonlinear Scheme based on the Two-Stage Fourth-Order Temporal Accurate Framework

Arxiv

0+阅读 · 2022年4月19日

AdapterHub Playground: Simple and Flexible Few-Shot Learning with Adapters

Arxiv

0+阅读 · 2022年4月19日

Automated Application Processing

Arxiv

1+阅读 · 2022年4月19日

Automated Task Updates of Temporal Logic Specifications for Heterogeneous Robots

Arxiv

0+阅读 · 2022年4月18日

Contrastive Learning with Hard Negative Entities for Entity Set Expansion

Arxiv

0+阅读 · 2022年4月16日

Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning

Arxiv

0+阅读 · 2022年4月14日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

A survey of embedding models of entities and relationships for knowledge graph completion

Arxiv

23+阅读 · 2020年8月10日

VIP会员

相关主题

预训练模型

相关VIP内容

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知会员服务

20+阅读 · 2022年4月13日

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知会员服务

21+阅读 · 2022年2月17日

【WWW2022】互信息压缩的紧凑图结构学习

【WWW2022】互信息压缩的紧凑图结构学习

专知会员服务

33+阅读 · 2022年1月17日

基于大型预训练语言模型的自然语言处理研究进展综述

基于大型预训练语言模型的自然语言处理研究进展综述

专知会员服务

96+阅读 · 2021年11月4日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【KDD2021】具有共同对比学习的自监督异构图神经网络

专知会员服务

41+阅读 · 2021年5月24日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年2月14日

论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

论文浅尝 | WWW2022 - “知识提示”之知识约束预训练微调

开放知识图谱

3+阅读 · 2022年2月2日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知

2+阅读 · 2022年1月26日

WWW2022｜去芜存菁：基于互信息压缩的紧致图结构学习

WWW2022｜去芜存菁：基于互信息压缩的紧致图结构学习

专知

1+阅读 · 2022年1月21日

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

直播预告 | AAAI 2022论文解读：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年1月19日

【WWW2022】互信息压缩的紧凑图结构学习

【WWW2022】互信息压缩的紧凑图结构学习

专知

2+阅读 · 2022年1月17日

【WWW2021】高效的非抽样知识图谱嵌入

【WWW2021】高效的非抽样知识图谱嵌入

专知

0+阅读 · 2021年4月25日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

相关基金

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据共性优化模型的高效算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

基于L21范数的稀疏鉴别子空间学习

国家自然科学基金

0+阅读 · 2013年12月31日

基于视频信号空时稀疏的认知压缩采样

国家自然科学基金

0+阅读 · 2012年12月31日

基于协作机制的无线多媒体网络效用提升方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向视觉大数据搜索的词典学习与特征编码压缩研究

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

Active Few-Shot Learning with FASL

Arxiv

0+阅读 · 2022年4月20日

Development of A Hermite Weighted Compact Nonlinear Scheme based on the Two-Stage Fourth-Order Temporal Accurate Framework

Arxiv

0+阅读 · 2022年4月19日

AdapterHub Playground: Simple and Flexible Few-Shot Learning with Adapters

Arxiv

0+阅读 · 2022年4月19日

Automated Application Processing

Arxiv

1+阅读 · 2022年4月19日

Automated Task Updates of Temporal Logic Specifications for Heterogeneous Robots

Arxiv

0+阅读 · 2022年4月18日

Contrastive Learning with Hard Negative Entities for Entity Set Expansion

Arxiv

0+阅读 · 2022年4月16日

Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning

Arxiv

0+阅读 · 2022年4月14日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

A survey of embedding models of entities and relationships for knowledge graph completion

Arxiv

23+阅读 · 2020年8月10日

微信扫码咨询专知VIP会员