颠覆直觉！大模型重压缩，反到加速推理速度，加州伯克利分校的再思考

会员服务 ·

颠覆直觉！大模型重压缩，反到加速推理速度，加州伯克利分校的再思考

2020 年 3 月 10 日 AI科技评论

实践中，通过减小模型大小来提高模型训练效率的这种常用做法，实际上与计算效率最佳的训练策略背道而驰。

加州伯克利分校研究者提出一种“先训练更大的模型，然后再压缩模型”的思路，来加速 Transformer 模型训练和推理，这种方法能够兼顾训练效率和训练成本。

文 | Eric Wallace

译 | 丛末

在深度学习中，使用更多的计算（例如增加模型大小、数据集大小或训练步骤）通常会提高准确度。随着像 BERT 这样的无监督预训练方法大获成功，能够将训练扩展到非常大的模型和数据集上，更体现了这一思路的有效性。

然而遗憾的是，大规模训练的计算成本非常昂贵，尤其是在没有大型工业界研究实验室提供硬件资源支持的条件下。因此，实践中进行大规模训练的目标往往是，在不超过硬件预算和训练时长的情况下，实现高准确度。

一般的训练预算几乎都无法满足大型模型的训练。因而最大化训练效率的“入门”策略，往往是使用隐藏层尺寸小或网络层少的模型，因为这些模型运行速度更快，并且占用的内存更少。

然而，伯克利博士生 Eric Wallace 等人在最新论文《Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers》中，发现实践中通过减小模型大小来提高模型训练效率的这种常用做法，实际上与计算效率最佳的训练策略背道而驰。

论文链接：https://arxiv.org/pdf/2002.11794.pdf

在论文中，他们还提出“训练更大的模型，然后再压缩模型”的思路来加速Transformer 模型训练和推理，能够兼顾训练效率和训练成本。

更大的模型，训练速度反而更快？

在论文《Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers》中，作者发现实践中通过减小模型大小来提高模型训练效率的这种常用做法，实际上与计算效率最佳的训练策略背道而驰。

研究者在计算预算内训练Transformer模型，无非是希望能够大幅增加模型大小，与此同时还能减少训练时长。换言之，即通过论证牺牲收敛性的同时增加模型大小的几率，重新考虑模型在收敛前必须训练的隐含假设。

发生这种现象的原因，是在较少的梯度更新中，较大的模型比较小的模型更能够收敛到较低的测试误差。此外，模型收敛性上的提高胜过使用更大模型的额外计算成本。因此，在考虑时钟训练时长时，较大的模型可以更快地实现较高的准确度。

下图中的两个训练曲线展示了这一趋势。左图绘制了BERT的变体——预训练 RoBERTa的验证错误。对于给定的时钟时间，较深的RoBERTa模型比较浅的模型实现了更低的困惑度（这篇论文表明，针对较宽的模型同样如此）。这种趋势也适用于机器翻译。

右图绘制了一个英-法 Transformer机器翻译模型的验证BLEU分数（越高越好）。在相同的训练时间下，较深和较宽的模型比较小的模型获得了更高的BLEU分数。

有趣的是，对于预训练RoBERTa，增加模型的宽度或深度都会加快训练速度。其中对于机器翻译，较宽的模型要优于较深的模型。因此，作者建议研究者在加深模型之前先尝试增加模型的宽度。

作者还建议增加模型大小而不是批量大小。具体而言，他们证实了，一旦批量大小接近临界范围，增加批量大小只能实现时钟训练时间上的边际改进。因此，在资源限制下，他们建议在临界范围内使用批量大小，之后再考虑尝试增加模型大小。

在测试时间上呢？

虽然较大的模型训练效率更高，但它们也增加了模型推理的计算和内存需求。这是有问题的，因为推理的总成本远大于大多数实际应用程序的训练成本。

然而，这篇论文表明了，RoBERTa 可以使用模型压缩来实现这一权衡。特别是，对于模型压缩技术而言，更大的模型比更小的模型鲁棒性更强。因此，研究者可以通过先训练非常大的模型，再对模型进行大量压缩，从而达到两全其美的效果。

其中，作者使用了量化和剪枝的压缩方法。量化方法能够以低精度格式存储模型权重；而剪枝方法则将某些神经网络权重设置为零。这两种方法都可以降低存储模型权重的推理延迟和内存需求。

他们首先在相同的时钟训练时长下，对不同尺寸的RoBERTa 模型进行了预训练。之后在下游文本分类任务（MNLI）上对这些模型进行微调，并进行了剪枝或量化。他们最终发现，在给定的测试时间预算内，训练模型最佳方法是先训练非常大的模型，训练后再对模型进行大量压缩。

例如，下图中的橙色曲线展示了最深的模型的剪枝结果。在不对模型剪枝的情况下，它达到了很高的准确度，不过使用了大约2亿个参数，因此需要大量的内存和计算。

然而，这个模型可以进行大量剪枝（左图，剪枝程度沿着曲线向左变化），而不会严重影响准确度。这与较小的模型形成了鲜明的对比，例如粉线表示的6层模型，剪枝后其准确度会严重下降。右图展示的量化，也有类似的趋势。

总的来说，在测试时间预算内训练模型的最佳方法，也是首先训练非常大的模型，再对模型进行大量压缩。

结论

研究表明，增大Transformer模型的大小可以提高训练和推理的效率，即“先训练大的模型，再压缩模型”。

这一发现还引出了很多其他有趣的问题，比如为什么较大的模型收敛得更快，压缩得更好。

本文对这一现象进行了初步探讨，但仍需进一步研究。另外值得一提的是，这篇论文的发现目前针对NLP，后续可以探索这些结论如何推广到计算机视觉等其他领域。

参考：
[1] https://bair.berkeley.edu/blog/2020/03/05/compress/

[2] https://arxiv.org/pdf/2002.11794.pdf

登录查看更多

相关内容

模型训练

关注 1

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

社区分享｜如何让模型在生产环境上推理得更快

TensorFlow

47+阅读 · 2020年2月19日

伯克利提出数据增强新方法，计算速度提升1000倍

AI前线

12+阅读 · 2019年6月21日

谷歌开源新模型EfficientNet：图像识别效率提升10倍，参数减少88%

AI前线

15+阅读 · 2019年6月9日

谷歌提出新型卷积网络EfficientNet：推理速度提升5.1倍，参数减少88%（附论文&代码）

THU数据派

6+阅读 · 2019年6月9日

推理速度提升5.1倍，参数减少88%：谷歌提出新型卷积网络EfficientNet（附代码）

机器之心

6+阅读 · 2019年5月31日

重磅！谷歌大脑提出EfficientNet平衡模型扩展三个维度，取得精度-效率的最大化！

GAN生成式对抗网络

5+阅读 · 2019年5月30日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

深度思考 | 从BERT看大规模数据的无监督利用

PaperWeekly

11+阅读 · 2019年2月18日

已删除

将门创投

7+阅读 · 2018年11月5日

学界 | 英特尔提出新型压缩技术DeepThin，适合移动端设备深度神经网络

机器之心

5+阅读 · 2018年2月28日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Arxiv

3+阅读 · 2019年5月28日

Knowledge Flow: Improve Upon Your Teachers

Arxiv

5+阅读 · 2019年4月11日

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Combining Pyramid Pooling and Attention Mechanism for Pelvic MR Image Semantic Segmentaion

Arxiv

8+阅读 · 2018年6月28日

Multi-Task Neural Models for Translating Between Styles Within and Across Languages

Arxiv

4+阅读 · 2018年6月12日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员