数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

会员服务 ·

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了 | ICLR&NeurIPS

2021 年 12 月 17 日 量子位

博雯发自凹非寺
量子位报道 | 公众号 QbitAI

在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。

这就是知识蒸馏，一种模型压缩/训练方法。

不过随着技术发展，大家也逐渐将蒸馏的对象扩展到了数据集上。

这不，谷歌最近就提出了两种新的数据集蒸馏方法，在推特上引起了不小反响，热度超过600：

像这样，将50000张标注图像的CIFAR-10数据集“蒸馏”缩小至1/5000大小，只基于10张合成数据点进行训练，模型的准确率仍可近似51%：

△上：原始数据集下：蒸馏后

而如果“蒸馏数据集”由500张图像组成（占原数据集1%大小），其准确率可以达到80%。

两种数据集蒸馏方法分别来自于ICLR 2021和NeurIPS 2021上的两篇论文。

通过两阶段循环进行优化

那么要如何才能“蒸馏”一个数据集呢？

其实，这相当于一个两阶段的优化过程：

“内部循环”，用于在学习数据上训练模型
“外部循环”，用于优化学习数据在自然数据上的性能

通过内部循环可以得到一个核岭回归（KRR）函数，然后再外部循环中计算原始图像标注与核岭回归函数预测标注之间的均方误差（MSE）。

这时，谷歌提出的两种方法就分别有了不同的处理路线：

一、标注解释 （LS）

这种方法直接解释最小化KRR损失函数的支持标注集（support labels），并为每个支持图像生成一个独特的密集标注向量。

△蓝：原始独热标注橙：LS生成的密集标注

二、核归纳点 （KIP）

这种方法通过基于梯度的方法将KRR损失函数最小化，以此来优化图像和可能生成的数据。

以MNIST为例，下图中的上、中、下三张图分别为原始的MNIST数据集、固定标注的KIP蒸馏图像、优化标注的KIP蒸馏图像。

可以看出，在于对数据集进行蒸馏时，优化标注的效果最好：

对比已有的DC（Dataset Condensation）方法和DSP（Dataset Condensation with Differentiable Siamese Augmentation）方法可以看到：

如果使用每类别只有一张图像，也就是最后只有10张图像的蒸馏数据集，KIP方法的测试集准确率整体高于DC和DSP方法。

在CIFAR-10分类任务中，LS也优于先前的方法，KIP甚至可以达到翻倍的效果。

对此，谷歌表示：

这证明了在某些情况下，我们的缩小100倍的“蒸馏数据集”要比原始数据集更好。

两位华人作者

整个项目由萧乐超（Lechao Xiao）、Zhourong Chen、Roman Novak三人合作完成。

其中萧乐超为LS方法的论文作者之一，本科毕业于浙江大学的应用数学系，在美国伊利诺大学厄巴纳-香槟分校（UIUC）取得博士学位，现在是谷歌大脑团队的一名科学家。

他的主要研究方向是数学、机器学习和深度学习。

另一位华人科学家Zhourong Chen则是KIP方法的论文作者之一，本科毕业于中山大学，并在香港科技大学取得了计算机科学与工程系的博士学位，现是Google Research的一名软件工程师。

论文：
[1]https://openreview.net/forum?id=l-PrrQrK0QR
[2]https://openreview.net/forum?id=hXWPpJedrVP

开源地址：
https://github.com/google-research/google-research/tree/master/kip

参考链接：
https://ai.googleblog.com/2021/12/training-machine-learning-models-more.html

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

蒸馏

关注 5

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式

专知会员服务

12+阅读 · 2021年12月9日

NeurIPS 2021奖项出炉：微软谷歌等6 篇论文获得杰出论文奖，在线LDA获得时间检验奖

专知会员服务

28+阅读 · 2021年12月1日

【AAAI2021】信息瓶颈和有监督表征解耦

专知会员服务

21+阅读 · 2021年1月27日

近期必读的五篇 NeurIPS 2020【元学习】相关论文

专知会员服务

28+阅读 · 2020年12月15日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示

专知会员服务

23+阅读 · 2020年10月13日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【论文】自训练噪声student模型提高ImageNet分类准确率（Self-training with Noisy Student improves ImageNet classification），谷歌研究科学家Quoc V. Le等

专知会员服务

24+阅读 · 2019年11月20日

语言模型参数越多越好？DeepMind用700亿打败自家2800亿，训练优化出「小」模型

机器之心

0+阅读 · 2022年4月3日

90.94%准确率！谷歌刷新ImageNet新纪录！Model soups：提高模型的准确性和稳健性

CVer

2+阅读 · 2022年3月20日

谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能

量子位

0+阅读 · 2022年3月16日

单个Transformer完成信息检索，谷歌用可微搜索索引打败双编码器模型

机器之心

1+阅读 · 2022年3月4日

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

CVer

0+阅读 · 2022年2月14日

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

新智元

0+阅读 · 2021年12月12日

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

PaperWeekly

1+阅读 · 2021年12月5日

重新标注128万张ImageNet图片：多标签，全面提升模型性能

机器之心

1+阅读 · 2021年1月28日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

原子范数最小化问题的理论与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

低秩张量优化问题的模型、算法及应用

国家自然科学基金

5+阅读 · 2013年12月31日

基于轨迹灵敏度的随机网络控制系统不敏感控制

国家自然科学基金

1+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

大规模混合设计变量结构优化设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于数据分布评估和支持向量机方法的分布式数据流挖掘模型和算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于图模型的海量非结构化数据查询语言及其优化实现

国家自然科学基金

0+阅读 · 2011年12月31日

基于鲁棒设计的供应链质量控制策略研究

国家自然科学基金

0+阅读 · 2009年12月31日

Semi-Supervised Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Extracting Targeted Training Data from ASR Models, and How to Mitigate It

Arxiv

0+阅读 · 2022年4月18日

UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles for Detecting Patronizing and Condescending Language

Arxiv

0+阅读 · 2022年4月18日

CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing

Arxiv

0+阅读 · 2022年4月18日

Graph Condensation for Graph Neural Networks

Arxiv

2+阅读 · 2022年4月17日

Pathologies of Pre-trained Language Models in Few-shot Fine-tuning

Arxiv

1+阅读 · 2022年4月17日

METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals

Arxiv

0+阅读 · 2022年4月16日

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language

Arxiv

0+阅读 · 2022年4月15日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

VIP会员