谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能

会员服务 ·

谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能

2022 年 3 月 16 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

如何最大限度地提升模型精度？

最近，谷歌等机构发现：

性能不好的微调模型先不要扔，求一下平均权重！

就能在不增加推理时间以及内存开销的情况下，提高模型的准确性和鲁棒性。

比如，研究人员就使用该方法创造了ImageNet1K的新纪录：90.94%。

将它扩展到多个图像分类以及自然语言处理任务中，也能提高模型的分布外性能，并改善新下游任务的零样本性能。

而这个方法还有一个有趣的名字，叫Module soup——

是不是让人一下子就让人联想到了斐波那契汤的笑话？（昨天的汤+前天的汤=今天的新汤）

△ 知乎网友@hzwer，已授权

一共三种配方

回想一下在此之前，大家是如何给模型涨点的呢？

是不是先用各种超参数训练出多个微调模型，然后再挑出验证集上表现最好的那一个留下，其余丢掉？

由于神经网络是非线性的，在不同的loss basin中可能有许多解，因此Module soup这一采用保留所有微调模型的权重，对其进行平均的方法就可以提高性能，还是让人有点惊讶的。

不过，最近就已有研究发现，从相同的初始化配置中中独立优化的微调模型，位于相同的误差范围内 （lie in the same basin of the error landscape）。

之前也有研究证明，沿单个训练轨迹进行权重平均，可以提高随机初始化训练模型的性能。

作者正是从这些结论中受到启发。

Module soup一共有三种“配方”（实现）：统一汤（uniform soup）、贪婪汤（greedy soup）和学习汤（learned soup）。

其中greedy soup是最主要采用的实现，因为它的性能比直接均匀地平均所有权重更高。

具体来说，Greedy soup通过顺序添加每个模型作为“汤”中的潜在成分构建而成，并且只有在保持验证集上的性能有所提高时才将相应模型保留在“汤”中。

排序按验证集精度的降序排列。

性能超越单个最佳微调模型

作者进行了全面的微调实验来确定Module soup的有效性。

首先是微调CLIP和ALIGN，这两个模型在图像-文本对上进行了对比损失预训练。

结果经过module soup操作后，两者在分布内和自然分布转移（distribution shifts）测试集上的表现都比最佳的单个微调模型性能更佳。

△ 左为CLIP，右为ALIGN

然后是在JFT数据集上预训练的ViT-G模型。

也就是它在ImageNet1K数据集实现了90.94%的精度，打破了此前CoAtNet保持的90.88%，同时在推理阶段还减少了25%的FLOPs。

在图像分类任务以外，作者在NLP领域也对module soup进行了验证。

下表是BERT和T5模型在GLUE benchmark的四个文本分类任务上的结果：

可以发现，虽然改进不如图像分类中的效果明显，但在多数任务下，greedy soup都可以相较最好的单个模型提高性能。

当然，作者也指出，module soup在适用性等方面存在局限，比如现在测试的都是在大型异构数据集上预先训练的模型，在这些模型之外，效果并不是非常明显。

最后，知乎网友@宫酱手艺人表示，其实这样的模型参数平均是一个经典trick，transformer原始论文就用了。

你发现了吗？

论文地址：
https://arxiv.org/abs/2203.0548

知乎@宫酱手艺人、@hzwer回答（已授权）：https://www.zhihu.com/question/521497951

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

微调

关注 0

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CIKM2021】联合优化查询编码器和乘积量化提高检索性能

专知会员服务

9+阅读 · 2021年9月16日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

量子位

2+阅读 · 2022年3月25日

90.94%准确率！谷歌刷新ImageNet新纪录！Model soups：提高模型的准确性和稳健性

CVer

2+阅读 · 2022年3月20日

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

极市平台

0+阅读 · 2022年3月20日

谷歌提出「卷积+注意力」新模型，超越ResNet最强变体！

量子位

1+阅读 · 2021年6月25日

特征空间中的稀疏表示及其分类研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向未知环境探索的类别独立对象检测

国家自然科学基金

0+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

删失数据中位数回归模型的统计分析

国家自然科学基金

3+阅读 · 2012年12月31日

基于数据分布评估和支持向量机方法的分布式数据流挖掘模型和算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

Arxiv

0+阅读 · 2022年4月20日

Enhancing CTR Prediction with Context-Aware Feature Representation Learning

Arxiv

0+阅读 · 2022年4月19日

CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing

Arxiv

0+阅读 · 2022年4月18日

Does Momentum Help? A Sample Complexity Analysis

Arxiv

0+阅读 · 2022年4月17日

Simple but Effective: CLIP Embeddings for Embodied AI

Arxiv

1+阅读 · 2022年4月15日

VIP会员