零障碍合并两个模型,大型ResNet模型线性连接只需几秒,神经网络启发性新研究

2022 年 9 月 14 日 机器之心

机器之心报道

编辑:杜伟、陈萍

这篇论文探讨了置换对称性(permutation symmetry)如何在 SGD 解决方案的线性模式连接中发挥重要作用。

深度学习能够取得如此成就,得益于其能够相对轻松地解决大规模非凸优化问题。尽管非凸优化是 NP 困难的,但一些简单的算法,通常是随机梯度下降(SGD)的变体,它们在实际拟合大型神经网络时表现出惊人的有效性。

本文中,来自华盛顿大学的多位学者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》,他们研究了在深度学习中,SGD 算法在高维非凸优化问题上的不合理有效性。他们受到三个问题的启发:

1. 为什么 SGD 在高维非凸深度学习损失 landscapes 的优化中表现良好,而在其他非凸优化设置中,如 policy 学习、轨迹优化和推荐系统的稳健性明显下降 ?


2. 局部极小值在哪里?在初始化权值和最终训练权值之间进行线性插值时,为什么损失会平滑、单调地减小?


3. 两个独立训练的模型,它们具有不同的随机初始化和数据批处理顺序,为何会实现几乎相同的性能?此外,为什么它们的训练损失曲线看起来一样



论文地址:https://arxiv.org/pdf/2209.04836.pdf


本文认为:在模型训练中存在一些不变性,这样一来才会有不同的训练表现出几乎相同的性能。


为什么会这样呢?2019 年,Brea 等人注意到神经网络中的隐藏单元具有置换对称性。简单的说就是:我们可以交换网络中隐藏层的任意两个单元,而网络功能将保持不变。2021 年 Entezari 等人推测,这些置换对称可能允许我们在权值空间中线性连接点,而不损害损失。


下面我们以论文作者之一的举例来说明文章主旨,这样大家会更清楚。

假如说你训练了一个 A 模型,你的朋友训练了一个 B 模型,这两个模型训练数据可能不同。没关系,使用本文提出的 Git Re-Basin,你能在权值空间合并这两个模型 A+B,而不会损害损失。



论文作者表示,Git Re-Basin 可适用于任何神经网络(NN),他们首次演示了在两个独立训练(没有预先训练)的模型(ResNets)之间,可以零障碍的线性连通。


他们发现,合并能力是 SGD 训练的一个属性,在初始化时合并是不能工作的,但是会发生相变,因此随着时间的推移合并将成为可能。



他们还发现,模型宽度与可合并性密切相关,即越宽越好。



此外,并非所有架构都能合并:VGG 似乎比 ResNets 更难合并。


这种合并方法还有其他优点,你可以在不相交和有偏差的数据集上训练模型,然后在权值空间中将它们合并在一起。例如,你有一些数据在美国,一些在欧盟。由于某些原因,不能混合数据。你可以先训练单独的模型,然后合并权重,最后泛化到合并的数据集。



因此,在不需要预训练或微调的情况下可以混合训练过的模型。作者表示自己很想知道线性模式连接和模型修补的未来发展方向,可能会应用到联邦学习、分布式训练以及深度学习优化等领域。


最后还提到,章节 3.2 中的权重匹配算法只需 10 秒左右即可运行,所以节省了大量时间。论文第 3 章也介绍了 A 模型与 B 模型单元匹配的三种方法,对匹配算法还不清楚的小伙伴,可以查看原论文。


网友评论及作者解疑


这篇论文在推特上引发了热议,PyTorch 联合创始人 Soumith Chintala 表示如果这项研究可以迁移到更大的设置,则它可以实现的方向会更棒。合并两个模型(包括权重)可以扩展 ML 模型开发,并可能在开源的共同开发模型中发挥巨大作用。



另有人认为如果置换不变性能够这样高效地捕捉大部分等价性,它将为神经网络的理论研究提供启发。



论文一作、华盛顿大学博士 Samuel Ainsworth 也解答了网友提出的一些问题。


首先有人问,「论文中是否有关于在训练中针对独特 basin 的任何提示?如果有一种方法可以做到对置换进行抽象,那么训练速度可能会更快。」


Ainsworth 回复称,这点自己没有想到。他真的希望能够以某种方式实现更快地训练,但目前为止已被证明非常困难。问题在于 SGD 本质上是一种局部搜索,因此利用高阶几何并不是那么容易。也许分布式训练是一种可行的方法。



还有人问是否适用于 RNN 和 Transformers?Ainsworth 表示原则上适用,但他还没有对此进行实验。时间会证明一切。



最后有人提出,「这看起来对分布式训练『成真』非常重要?难道 DDPM(去噪扩散概率模型)不使用 ResNet 残差块吗?」


Ainsworth 回复称,虽然他自己对 DDPM 不是很熟悉,但直言不讳表示将它用于分布式训练将非常令人兴奋。



掌握「声纹识别技术」:前20小时交给我,后9980小时……

《声纹识别:从理论到编程实战》中文课上线,由谷歌声纹团队负责人王泉博士主讲。
课程视频内容共 12 小时,着重介绍基于深度学习的声纹识别系统,包括大量学术界与产业界的最新研究成果。
同时课程配有 32 次课后测验、10 次编程练习、10 次大作业,确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。
点击 阅读原文 ,了解更多课程内容。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
13个经典CNN架构比较分析!从AlexNet到ResNet再到ConvNeXt
专知会员服务
100+阅读 · 2022年3月14日
专知会员服务
35+阅读 · 2021年8月17日
专知会员服务
27+阅读 · 2020年10月24日
专知会员服务
44+阅读 · 2020年3月6日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
使用PyTorch进行小样本学习的图像分类
极市平台
1+阅读 · 2022年11月4日
手机上也能训练BERT和ResNet了?!
夕小瑶的卖萌屋
1+阅读 · 2022年7月25日
无需训练,自动扩展的视觉Transformer来了
机器之心
0+阅读 · 2022年4月10日
神操作!RM让ResNet等价转换为Plain架构
极市平台
0+阅读 · 2021年11月6日
吴恩达团队:神经网络如何正确初始化?
AI100
10+阅读 · 2019年5月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
10+阅读 · 2021年2月18日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
11+阅读 · 2018年5月21日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
13+阅读 · 2021年5月25日
Arxiv
10+阅读 · 2021年2月18日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
11+阅读 · 2018年5月21日
Top
微信扫码咨询专知VIP会员