深度模型融合/合并是一种新兴的技术,它将多个深度学习模型的参数或预测合并成一个。它结合了不同模型的能力,以补偿单一模型的偏差和错误,以实现更好的性能。然而,对于大规模深度学习模型(例如,LLMs 和基础模型)的深度模型融合面临着几个挑战,包括高计算成本、高维参数空间、不同异构模型之间的干扰等。尽管模型融合由于其解决复杂实际任务的潜力而引起了广泛关注,但关于这种技术的完整和详细的调查研究仍然缺乏。因此,为了更好地理解模型融合方法并推动其发展,我们提出了一项全面的调查以总结最近的进展。具体来说,我们将现有的深度模型融合方法分类为四种:(1)“模式连接”,通过非递增损失的路径连接权重空间中的解,以获得模型融合的更好初始化;(2)“对齐”匹配神经网络之间的单元以为融合创造更好的条件;(3)“权重平均”,一种经典的模型融合方法,对多个模型的权重进行平均,以获得更接近最优解的精确结果。 (4)**“集成学习”**结合了多种模型的输出,这是一种改善最终模型的准确性和鲁棒性的基础技术。另外,我们分析了深度模型融合面临的挑战,并提出了未来模型融合的可能研究方向。我们的评论对于深入理解不同模型融合方法之间的关系和实际应用方法是有帮助的,这可以启发深度模型融合领域的研究。
https://www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb
近年来,深度神经网络(DNNs)[129] 取得了显著的发展,广泛应用于计算机视觉(CV)[175]、自然语言处理(NLP)[30] 等领域。一般来说,单一深度学习模型通常具有一定的局限性,不能完全捕获复杂网络背后的所有潜在信息[195]。因此,经典的集成学习[15, 193, 198] 合并多个模型的输出,以改善深度学习(DL)中模型的最终性能。但在测试时存储和运行多个模型的成本很高[65, 204],尤其是模型的复杂性和大小增加时。例如,GPT-3[172] 有数十亿参数,PaLM[31] 甚至达到5400亿参数和7800亿令牌。此外,从深度神经网络[134, 196] 的损失景观的角度来看,梯度优化的解通常聚集在宽平区域的边界附近的点,而不是中心点[99]。这意味着经过训练的网络并不完全接近具有最小测试错误的最优解。需要融合相对最优点附近的解,以得到更好的结果。这激发了研究人员不仅将融合范围限制于预测(例如,logits等),而且还包括模型参数的融合,而无需访问训练数据或保持所有单独模型[110]。因此,深度模型融合[111, 159] 旨在将多个DNNs融合成一个网络,保留其原始功能,甚至超越多任务训练[3, 135]。此外,深度模型融合可以减少单一模型过度拟合特定样本或噪声的倾向,从而提高预测的准确性、多样性和稳健性[207, 223]。由于数据隐私和实际节约资源的问题,深度模型融合引起了越来越多的关注。尽管深度模型融合的发展带来了许多技术突破,但它也产生了一系列的挑战,例如高计算负荷、模型异构性和通过组合优化对齐的速度慢[133, 204]等。
有些方法仅限于特定场景[227, 254],这激发了研究人员研究不同案例中模型融合的原理。然而,目前缺乏综合评论来总结方法,以指示深度模型融合的内部机制。一些工作只关注从单一视角(例如,特征融合等)[45, 195] 和特定场景[213] 的模型融合,或者不同方式的信息融合(多模态融合[1, 103])而不是参数的融合。为了给开发者深入了解深度模型融合,我们分析了深度模型融合的原理和方法。此外,我们回顾了最近的进展和代表性应用,例如联邦学习(FL)[160] 和微调[29] 等。我们的调查旨在说明深度模型融合的最新趋势和潜在方向,并为研究人员提供指南,以提高性能和降低成本。因此,我们根据内部机制和目的将方法分为四类,如图1所示。对于相互之间不在附近的独立训练的模型,“模式连接”和“对齐”使解更加接近,以获得更好的平均原始条件。对于权重空间中存在某些差异的类似模型,“权重平均(WA)”倾向于直接平均模型,并在损失函数值较低的参数空间区域获得更接近最优点的解[118]。此外,对于现有模型的预测,“集成学习”集成了模型的不同形式的预测,以获得更好的结果。具体来说,这四个类别如下:
模式连接性指的是通过基于梯度的优化得到的解可以在权重空间中通过一条无障碍的路径(连接器)进行连接。我们可以沿着低损失路径获得更适合模型融合的其他模型。根据路径的数学形式和连接器所在的空间,我们将此部分划分为“线性模式连接性”,“非线性模式连接性”和“子空间中的模式连接性”。模式连接性可以在训练过程中解决局部优化问题。模式连接性的路径的几何关系也可以用来加速优化过程,如随机梯度下降(SGD)的收敛、稳定性和准确性。简而言之,模式连接性为解释和理解模型融合的行为提供了一个新的视角。但是,特别是在大数据集上训练模型时,应解决计算复杂性和参数调整的困难。
对齐是将多个模型的单元进行匹配,并对模型进行平均以获得最终模型。对齐后,不同模型之间的特定数学度量(例如,欧几里得距离)可以更为接近,从而减小模型之间的差异,进而增强深度模型融合的效果。对齐可分为“激活匹配”和“权重匹配”,取决于是否需要考虑数据分布。此外,Re-basin基于对齐引入,探讨解决方案可以通过排列不变性被传输到一个单一的盆地(即,参数空间中相对低损失的区域)。然而,对齐通常面临着计算量大、组合优化速度慢和架构差异的障碍,使得它不易扩展到具有不同目标的其他场景。例如,伴随图匹配而来的记忆负担限制了深度模型融合的应用。
权重平均是将几个母网络融合成一个单一网络的最直接和高效的方式。与模式连接性和对齐相比,权重平均不需要额外的计算复杂性或训练来找到一个优越的起点,在模型包含一定程度的相似性时表现良好。根据聚合空间,权重平均可分为“权重平均”和“子空间中的平均”。此外,典型的方法“模型汤”,“模型算术”和“随机权重平均”也对现有方法进行了显著改进。然而,当参数被规范化和合并时,可能会在模型结构或参数数量存在较大差异的情况下引入一些偏差。尽管如此,权重平均仍然是深度模型融合的主流方法,因为它简单且高效。
集成学习结合了几种不同模型的输出,以改善预测性能和鲁棒性。我们专注于深度学习中的集成学习。基于集成学习,“模型重用”为每个模型提供了规格,这样在给定新的学习任务时,有用的模型可以从模型池中被识别和合并。集成学习具有各种框架和便捷的界面,经常用于实际领域,例如物体检测等。尽管集成学习需要维护多个训练过的模型并在测试时运行每个模型,但它仍然是在深度学习中被广泛采用的强大技术之一。
作为一项提高深度模型的准确性和鲁棒性的技术,模型融合促进了许多应用领域的改进。联邦学习,一种在中央服务器上聚合客户端模型的应用,使得各方可以贡献数据到功能的计算中(例如,各种统计、分类器),而无需泄露隐私。微调对预训练模型进行小的调整,结合模型融合以减少训练成本并适应特定任务或领域的需求。模型融合还涉及到“蒸馏”。即,将来自多个复杂模型的软目标知识结合起来,为特定要求训练一个小模型。模型融合在foundation/LLMs上的应用包括在大型基础模型或大型语言模型(LLMs)上的工作,例如视觉变压器(ViT)和GPT等。模型融合的应用帮助开发人员适应各种任务和领域的需求,并促进深度学习的发展。简而言之,我们的调查回顾了深度模型融合技术。在前三节“模式连接性”,“对齐”和“权重平均”中,我们主要从模型参数融合的角度进行全面研究。在“集成学习”中,我们主要从模型输出聚合的角度探讨了这个问题。
本工作的主要贡献总结如下:
• 我们从“模式连接性”,“对齐”,“权重平均”和“集成学习”的角度提出了一种新的深度模型融合分类方法,该方法涵盖了模型融合的理论综合方法,并为实现DNNs的高泛化和准确训练提供了指导。
• 我们比较了融合方法的优缺点,并解释了它们之间的机制和关系,为未来设计先进的模型融合方法提供了灵感。
• 我们总结了深度模型融合的广泛应用。我们还讨论了当前的研究趋势,以便在未来引起更多的关注和反思。此外,本文的其余部分组织如下:在第2节到第5节,我们根据“模式连接性”、“对齐”、“权重平均”和“集成学习”的四个角度介绍深度模型融合的方法。第6节介绍了深度模型融合的应用:“联邦学习”、“微调”、“蒸馏”和“在foundation/LLMs上的模型融合”。最后,在第7节中,我们总结了深度模型融合,并讨论了未来的挑战和潜在方向。另外,我们在全文中说明了符号及其相应的定义。Wi是第i个具有权重Wi ∈ R^d(i = 1, 2, ...k)和偏置项b的神经网络。λ表示加权参数。σ表示非线性神经元激活函数。L是损失函数,用于量化预测值和实际值之间的差异。