零障碍合并两个模型，大型ResNet模型线性连接只需几秒，神经网络启发性新研究

2022 年 9 月 14 日 机器之心

机器之心报道

编辑：杜伟、陈萍

这篇论文探讨了置换对称性（permutation symmetry）如何在 SGD 解决方案的线性模式连接中发挥重要作用。

深度学习能够取得如此成就，得益于其能够相对轻松地解决大规模非凸优化问题。尽管非凸优化是 NP 困难的，但一些简单的算法，通常是随机梯度下降（SGD）的变体，它们在实际拟合大型神经网络时表现出惊人的有效性。

本文中，来自华盛顿大学的多位学者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》，他们研究了在深度学习中，SGD 算法在高维非凸优化问题上的不合理有效性。他们受到三个问题的启发：

1. 为什么 SGD 在高维非凸深度学习损失 landscapes 的优化中表现良好，而在其他非凸优化设置中，如 policy 学习、轨迹优化和推荐系统的稳健性明显下降 ?

2. 局部极小值在哪里？在初始化权值和最终训练权值之间进行线性插值时，为什么损失会平滑、单调地减小？

3. 两个独立训练的模型，它们具有不同的随机初始化和数据批处理顺序，为何会实现几乎相同的性能？此外，为什么它们的训练损失曲线看起来一样

论文地址：https://arxiv.org/pdf/2209.04836.pdf

本文认为：在模型训练中存在一些不变性，这样一来才会有不同的训练表现出几乎相同的性能。

为什么会这样呢？2019 年，Brea 等人注意到神经网络中的隐藏单元具有置换对称性。简单的说就是：我们可以交换网络中隐藏层的任意两个单元，而网络功能将保持不变。2021 年 Entezari 等人推测，这些置换对称可能允许我们在权值空间中线性连接点，而不损害损失。

下面我们以论文作者之一的举例来说明文章主旨，这样大家会更清楚。

假如说你训练了一个 A 模型，你的朋友训练了一个 B 模型，这两个模型训练数据可能不同。没关系，使用本文提出的 Git Re-Basin，你能在权值空间合并这两个模型 A+B，而不会损害损失。

论文作者表示，Git Re-Basin 可适用于任何神经网络（NN），他们首次演示了在两个独立训练（没有预先训练）的模型（ResNets）之间，可以零障碍的线性连通。

他们发现，合并能力是 SGD 训练的一个属性，在初始化时合并是不能工作的，但是会发生相变，因此随着时间的推移合并将成为可能。

他们还发现，模型宽度与可合并性密切相关，即越宽越好。

此外，并非所有架构都能合并：VGG 似乎比 ResNets 更难合并。

这种合并方法还有其他优点，你可以在不相交和有偏差的数据集上训练模型，然后在权值空间中将它们合并在一起。例如，你有一些数据在美国，一些在欧盟。由于某些原因，不能混合数据。你可以先训练单独的模型，然后合并权重，最后泛化到合并的数据集。

因此，在不需要预训练或微调的情况下可以混合训练过的模型。作者表示自己很想知道线性模式连接和模型修补的未来发展方向，可能会应用到联邦学习、分布式训练以及深度学习优化等领域。

最后还提到，章节 3.2 中的权重匹配算法只需 10 秒左右即可运行，所以节省了大量时间。论文第 3 章也介绍了 A 模型与 B 模型单元匹配的三种方法，对匹配算法还不清楚的小伙伴，可以查看原论文。

网友评论及作者解疑

这篇论文在推特上引发了热议，PyTorch 联合创始人 Soumith Chintala 表示如果这项研究可以迁移到更大的设置，则它可以实现的方向会更棒。合并两个模型（包括权重）可以扩展 ML 模型开发，并可能在开源的共同开发模型中发挥巨大作用。

另有人认为如果置换不变性能够这样高效地捕捉大部分等价性，它将为神经网络的理论研究提供启发。

论文一作、华盛顿大学博士 Samuel Ainsworth 也解答了网友提出的一些问题。

首先有人问，「论文中是否有关于在训练中针对独特 basin 的任何提示？如果有一种方法可以做到对置换进行抽象，那么训练速度可能会更快。」

Ainsworth 回复称，这点自己没有想到。他真的希望能够以某种方式实现更快地训练，但目前为止已被证明非常困难。问题在于 SGD 本质上是一种局部搜索，因此利用高阶几何并不是那么容易。也许分布式训练是一种可行的方法。

还有人问是否适用于 RNN 和 Transformers？Ainsworth 表示原则上适用，但他还没有对此进行实验。时间会证明一切。

最后有人提出，「这看起来对分布式训练『成真』非常重要？难道 DDPM（去噪扩散概率模型）不使用 ResNet 残差块吗？」

Ainsworth 回复称，虽然他自己对 DDPM 不是很熟悉，但直言不讳表示将它用于分布式训练将非常令人兴奋。

掌握「声纹识别技术」：前20小时交给我，后9980小时……

《声纹识别：从理论到编程实战》中文课上线，由谷歌声纹团队负责人王泉博士主讲。

课程视频内容共 12 小时，着重介绍基于深度学习的声纹识别系统，包括大量学术界与产业界的最新研究成果。

同时课程配有 32 次课后测验、10 次编程练习、10 次大作业，确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。

点击阅读原文，了解更多课程内容。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

非凸

关注 0

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

专知会员服务

59+阅读 · 2022年6月27日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知会员服务

61+阅读 · 2022年4月3日

13个经典CNN架构比较分析！从AlexNet到ResNet再到ConvNeXt

专知会员服务

102+阅读 · 2022年3月14日

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

专知会员服务

23+阅读 · 2021年11月9日

【ICML2021】基于子网络推理的贝叶斯深度学习

专知会员服务

36+阅读 · 2021年8月17日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

如何持续深度学习？看这份《DNN2GP: 从深度神经网络到高斯过程》45页ppt和论文提供新思路

专知会员服务

57+阅读 · 2020年5月15日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

专知会员服务

44+阅读 · 2020年2月21日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

使用PyTorch进行小样本学习的图像分类

极市平台

1+阅读 · 2022年11月4日

排序、搜索、动态规划，DeepMind用一个神经算法学习器给解决了

机器之心

0+阅读 · 2022年10月5日

手机上也能训练BERT和ResNet了？！

夕小瑶的卖萌屋

1+阅读 · 2022年7月25日

ICLR 2022 | 纯MLP的点云网络：新架构PointMLP大幅提高点云分类准确率和推理速度

机器之心

2+阅读 · 2022年4月12日

无需训练，自动扩展的视觉Transformer来了

机器之心

0+阅读 · 2022年4月10日

CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法

机器之心

1+阅读 · 2022年3月30日

把Transformer结构剪成ResNet结构！新的MSA和卷积操作之间的权重共享方案

极市平台

3+阅读 · 2021年11月28日

神操作！RM让ResNet等价转换为Plain架构

极市平台

0+阅读 · 2021年11月6日

12层也能媲美ResNet？邓嘉团队提出最新力作ParNet，ImageNet top1精度直冲80.7%

极市平台

0+阅读 · 2021年10月19日

吴恩达团队：神经网络如何正确初始化？

AI100

11+阅读 · 2019年5月15日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

反常扩散的广义积分方程构造理论及其数值应用

国家自然科学基金

0+阅读 · 2013年12月31日

层状双氢氧化物的层离及形成聚合物纳米复合材料结构的机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目标排序的近似算法

国家自然科学基金

0+阅读 · 2013年12月31日

炼化系统大规模动态与多目标优化的GPU异构并行加速策略及方法

国家自然科学基金

2+阅读 · 2012年12月31日

平面多项式微分方程的极限环和周期函数的单调性

国家自然科学基金

0+阅读 · 2011年12月31日

网络的结构性质及拓扑参数研究

国家自然科学基金

1+阅读 · 2009年12月31日

新型动态自适应粒子群优化算法的研究

国家自然科学基金

0+阅读 · 2009年12月31日

最小失配网络的理论研究

国家自然科学基金

0+阅读 · 2008年12月31日

注意网络及其神经基础的研究

国家自然科学基金

0+阅读 · 2008年12月31日

Arxiv

0+阅读 · 2022年11月23日

Active Learning for Domain Adaptation: An Energy-based Approach

Arxiv

13+阅读 · 2021年12月2日

On Explainability of Graph Neural Networks via Subgraph Explorations

Arxiv

11+阅读 · 2021年5月31日

Scaling Properties of Deep Residual Networks

Arxiv

13+阅读 · 2021年5月25日

Bayesian Deep Learning via Subnetwork Inference

Arxiv

10+阅读 · 2021年2月18日

Hierarchical Graph Capsule Network

Arxiv

20+阅读 · 2020年12月16日

Subgraph Neural Networks

Arxiv

27+阅读 · 2020年6月19日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

Bilinear Attention Networks

Arxiv

11+阅读 · 2018年5月21日

VIP会员