剪掉ImageNet 20%数据量，模型性能不下降！Meta斯坦福等提出新方法，用知识蒸馏给数据集瘦身

会员服务 ·

剪掉ImageNet 20%数据量，模型性能不下降！Meta斯坦福等提出新方法，用知识蒸馏给数据集瘦身

2022 年 7 月 4 日 量子位

明敏发自凹非寺
量子位 | 公众号 QbitAI

这两天，推特上一个任务悬赏火得一塌糊涂。

一家AI公司提供25万美金（折合人民币约167万元），悬赏什么任务能让模型越大、性能反而越差。

评论区里已经讨论得热火朝天了。

不过这事儿倒也不是单纯整活，而是为了进一步探索大模型。

毕竟，这两年大家越发意识到，AI模型不能单纯比“大”。

一方面，随着模型的规模越来越大，训练付出的成本开始呈现指数型增长；

另一方面，模型性能的提升也已经逐渐到达瓶颈期，哪怕想要让误差再下降1%，都需要更多的数据集增量和计算增量。

比如对于Transformer而言，交叉熵损失想要从3.4奈特降低到2.8奈特，就需要原本10倍量的训练数据。

针对这些问题，AI学者们已经在从各种方向上找解决路子了。

Meta斯坦福的学者们，最近想到了从数据集上切入。

他们提出，对数据集进行知识蒸馏，使得数据集规模虽小，但还能保持模型性能不下降。

实验验证，在剪掉ImageNet 20%的数据量后，ResNets表现和使用原本数据时的正确率相差不大。

研究人员表示，这也为AGI实现找出了一条新路子。

超大数据集的效率并不高

本文提出的办法，其实就是对原本的数据集进行优化精简。

研究人员表示，过去许多方法都表明，许多训练示例是高度冗余的，理论上可以把数据集“剪”得更小。

而且最近也有研究提出了一些指标，可以根据训练示例的难度或重要性对它们进行排序，并通过保留其中一些难度高的示例，就能完成数据修剪。

基于前人的发现和研究，此次学者们进一步提出了一些可具体操作的方法。

首先，他们提出了一种数据分析方法，可以让模型只学习部分数据，就能实现同等的性能。

通过数据分析，研究人员初步得出结论：

一个数据集怎样修剪效果最好？这和它本身的规模有关。

初始数据量越多，越应该保留难度高的示例；

初始数据量越少，则应该保留难度低的示例。

而在保留困难示例进行数据修剪后，模型和数据规模的对应关系，可以打破幂律分布。

常被提起的二八定律就是基于幂律提出的。

即20%的数据会影响80%的结果。

同时在此情况下，还能找到一个处于帕累托最优的下的极值。

这里所说的帕累托最优是指资源分配的一种理想状态。

它假设固定有一群人和可分配的资源，从一种分配状态调整到另一种分配状态，在没有使任何一个人变差的前提下，至少使得一个人变得更好。

在本文中，调整分配状态即可理解为，修剪多少比例的数据集。

然后，研究人员进行了实验来验证这一理论。

从实验结果来看，当数据集越大，修剪后的效果就越明显。

在SVHN、CIFAR-10、ImageNet几个数据集上，ResNet的错误率总体和数据集修剪规模呈反比。

在ImageNet上可以看到，数据集规模保留80%的情况下，和原本数据集训练下的错误率基本相同。

这一曲线也逼近了帕累托最优。

接下来，研究人员聚焦在ImageNet上，对10种不同情况进行了大规模基准测试。

结果表明，随机修剪以及一些修剪指标，在ImageNet上的表现并不够好。

所以更进一步，研究人员还提出了一种自监督方法来修剪数据。

也就是知识蒸馏（教师学生模型），这是模型压缩的一种常见方法。

结果显示，在自监督方法下，它在找数据集中简单/困难示例上的表现都还不错。

使用自监督方法修剪数据后，正确率明显提高（图C中浅蓝色线）。

还存在一些问题

不过在论文中，研究人员也提到，虽然通过如上方法可以在不牺牲性能的情况下修剪数据集，但是有些问题仍旧值得关注。

比如数据集缩小后，想要训练出同等性能的模型，需要的时间可能会更长。

因此，在进行数据集修剪时，应该平衡缩减规模和训练增长时间两方面因素。

与此同时，对数据集进行修剪，势必会丧失一些群体的样本，由此也可能造成模型在某一个方面出现弊端。

在这方面会容易引起道德伦理方面的问题。

研究团队

本文作者之一Surya Ganguli，是量子神经网络科学家。

他现在是斯坦福大学应用物理学教授、谷歌客座研究教授。

此前，他在斯坦福读本科期间，同时学习了计算机科学、数学和物理三个专业，之后拿下了电气工程与计算机科学硕士学位。

论文地址：
https://arxiv.org/abs/2206.14486

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

模型性能

关注 2

AAAI2022-无需蒸馏信号的对比学习小模型训练效能研究

专知会员服务

17+阅读 · 2021年12月23日

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

专知会员服务

18+阅读 · 2020年11月11日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

深度神经网络模型压缩综述

专知会员服务

117+阅读 · 2020年8月22日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

深度神经网络模型压缩与加速综述

专知会员服务

130+阅读 · 2019年10月12日

ACL 2022 | 跨语言命名实体识别：无监督多任务多教师蒸馏模型

PaperWeekly

0+阅读 · 2022年7月12日

CVPR 2022 | 这个自蒸馏新框架新SOTA，降低了训练成本，无需修改网络

机器之心

2+阅读 · 2022年4月8日

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

新智元

1+阅读 · 2022年3月20日

谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能

量子位

0+阅读 · 2022年3月16日

参数量下降85%，性能全面超越ViT：全新图像分类方法ViR

机器之心

0+阅读 · 2022年1月7日

参数量仅为4%，性能媲美GPT-3：开发者图解DeepMind的RETRO

机器之心

2+阅读 · 2022年1月4日

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

新智元

0+阅读 · 2021年12月12日

多大分辨率图像做分类更适合？浙大&华为&国科大等提出Dynamic Resolution Network，降低计算量还提性能！

极市平台

0+阅读 · 2021年11月2日

反向 Dropout！韩松团队最新工作NetAug：提高Tiny神经网络性能的新训练方法

极市平台

1+阅读 · 2021年10月22日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

高维数据保真降维方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于随机网络演算的数据中心QoS保障节能策略研究

国家自然科学基金

0+阅读 · 2013年12月31日

中药过程质量控制的近红外光谱高性能模型融合

国家自然科学基金

0+阅读 · 2013年12月31日

铜互连自形成阻挡层新方法与相关理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

自变量受限的回归模型的同步置信带

国家自然科学基金

0+阅读 · 2012年12月31日

基于谱流形降维的大规模进化多目标优化研究

国家自然科学基金

0+阅读 · 2011年12月31日

遥感数据与植被生态系统碳循环模型的同化研究

国家自然科学基金

1+阅读 · 2009年12月31日

Robust-by-Design Classification via Unitary-Gradient Neural Networks

Arxiv

0+阅读 · 2022年9月9日

A Roadmap for Big Model

Arxiv

76+阅读 · 2022年3月26日

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

Arxiv

12+阅读 · 2021年8月30日

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Arxiv

11+阅读 · 2021年4月29日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员