【AAAI2024】EPSD：高效模型压缩中的早期剪枝与自我蒸馏 - 专知VIP

会员服务 ·

17

AAAI 2024 · 模型压缩 · 知识蒸馏 ·

2024 年 2 月 5 日

【AAAI2024】EPSD：高效模型压缩中的早期剪枝与自我蒸馏

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

神经网络压缩技术，如知识蒸馏（KD）和网络剪枝，已日益受到关注。最近的工作“先剪枝，再蒸馏”揭示了一个被剪枝过的对学生友好的教师网络可以提高KD的性能。然而，传统的教师-学生流程，需要对教师进行繁琐的预训练和复杂的压缩步骤，使得结合KD的剪枝效率较低。除了压缩模型，最近的压缩技术也强调效率方面。早期剪枝与传统剪枝方法相比，需要的计算成本显著较低，因为它不需要一个大的预训练模型。同样，KD的一个特殊情况，称为自蒸馏（SD），更为高效，因为它不需要预训练或学生-教师对的选择。这激发了我们将早期剪枝与SD结合起来进行高效模型压缩的想法。在这项工作中，我们提出了一个名为早期剪枝与自我蒸馏（EPSD）的框架，该框架在给定的SD任务中识别并保留早期剪枝的可蒸馏权重。EPSD有效地将早期剪枝和自我蒸馏结合在一个两步过程中，保持了剪枝网络的可训练性以进行压缩。EPSD不是简单地组合剪枝和SD，而是通过在训练前保留更多可蒸馏的权重使剪枝网络更倾向于SD，以确保更好的剪枝网络蒸馏。我们证明EPSD改进了剪枝网络的训练，通过视觉和定量分析得到支持。我们的评估涵盖了多样的基准（CIFAR-10/100, Tiny-ImageNet, 全尺寸ImageNet, CUB-200-2011和Pascal VOC），EPSD的表现超过了先进的剪枝和SD技术。

成为VIP会员查看完整内容

24

相关内容

AAAI 2024

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

【NeurIPS2023】基于频域的数据集蒸馏

【NeurIPS2023】基于频域的数据集蒸馏

专知会员服务

24+阅读 · 2023年11月16日

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

专知会员服务

18+阅读 · 2023年9月24日

【KDD2023】发现动态因果空间进行DAG结构学习

【KDD2023】发现动态因果空间进行DAG结构学习

专知会员服务

33+阅读 · 2023年6月9日

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

专知会员服务

24+阅读 · 2023年5月23日

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

专知会员服务

42+阅读 · 2023年4月15日

【NeurIPS2022】GENIE:高阶去噪扩散求解器

【NeurIPS2022】GENIE:高阶去噪扩散求解器

专知会员服务

18+阅读 · 2022年11月13日

【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩

【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩

专知会员服务

24+阅读 · 2022年6月10日

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

28+阅读 · 2021年6月18日

【AAAI2021】“可瘦身”的生成式对抗网络

【AAAI2021】“可瘦身”的生成式对抗网络

专知会员服务

13+阅读 · 2020年12月12日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

人工智能前沿讲习班

31+阅读 · 2019年6月4日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

附加电离层信息的多GNSS融合PPP快速收敛与解算方法

国家自然科学基金

0+阅读 · 2015年12月31日

EAST上RMP引起H模台基结构变化的测量及其和模拟结果的对比研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

Ago2磷酸化在DNA损伤修复中的功能分析

国家自然科学基金

0+阅读 · 2014年12月31日

SiC MOS器件界面缺陷及其钝化研究

国家自然科学基金

0+阅读 · 2014年12月31日

合金化元素（Ti/Nb/Re）对W中He起泡行为的影响及机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

【NeurIPS2023】基于频域的数据集蒸馏

【NeurIPS2023】基于频域的数据集蒸馏

专知会员服务

24+阅读 · 2023年11月16日

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

【NeurIPS2023】PAXION：在视频-语言基础模型中修补动作知识

专知会员服务

18+阅读 · 2023年9月24日

【KDD2023】发现动态因果空间进行DAG结构学习

【KDD2023】发现动态因果空间进行DAG结构学习

专知会员服务

33+阅读 · 2023年6月9日

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

专知会员服务

24+阅读 · 2023年5月23日

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

专知会员服务

42+阅读 · 2023年4月15日

【NeurIPS2022】GENIE:高阶去噪扩散求解器

【NeurIPS2022】GENIE:高阶去噪扩散求解器

专知会员服务

18+阅读 · 2022年11月13日

【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩

【KDD2022】基于对抗性知识蒸馏的深度图神经网络压缩

专知会员服务

24+阅读 · 2022年6月10日

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

28+阅读 · 2021年6月18日

【AAAI2021】“可瘦身”的生成式对抗网络

【AAAI2021】“可瘦身”的生成式对抗网络

专知会员服务

13+阅读 · 2020年12月12日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

人工智能前沿讲习班

31+阅读 · 2019年6月4日

相关基金

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

附加电离层信息的多GNSS融合PPP快速收敛与解算方法

国家自然科学基金

0+阅读 · 2015年12月31日

EAST上RMP引起H模台基结构变化的测量及其和模拟结果的对比研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

Ago2磷酸化在DNA损伤修复中的功能分析

国家自然科学基金

0+阅读 · 2014年12月31日

SiC MOS器件界面缺陷及其钝化研究

国家自然科学基金

0+阅读 · 2014年12月31日

合金化元素（Ti/Nb/Re）对W中He起泡行为的影响及机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员