在NeurIPS 2022上,来自新加坡国立大学LVlab的团队就提出了一种全新的迁移学习范式,称为《Deep Model Reassembly》深度模型重组。论文链接:https://arxiv.org/abs/2210.17409代码链接:https://github.com/Adamdad/DeRy项目主页:https://adamdad.github.io/dery/OpenReview:https://openreview.net/forum?id=gtCPWaY5bNh作者首先将已有的预训练模型按照功能相似度拆解成一个个子网络,再通过把子网络重新组装的方式,构建在特定任务上高效且易用的模型。该论文以886的评分被NeurIPS接收,并被推荐为Paper Award Nomination。本文中,作者探索了一种新的知识迁移任务,称为深度模型重组(Deep Model Reassembly, 简称DeRy),用于通用模型重用。给定一组在不同数据和异构架构上训练得到的预训练模型,深度模型重组首先将每个模型拆分为独立的模型块,然后有选择地以在硬件和性能约束下对子模型块重新组装。该方法类似于将深度神经网络模型当作成积木:将已有大积木拆解成为一个个小积木块,然后将零件按照需求组装起来。组装起来的新模型不但应具备更强的性能;且组装过程应尽可能不改变原模块的结构和参数,保证其的高效性。
把深度模型打散并重组
深度模型重组(Deep Model Reassembly)首先作者对深度模型重组装的问题进行定义:给定个训练好的深度模型,称作一个模型库。每一个模型由层链接组合而成, 表示为。不同的网络可以拥有完全不同的结构和操作,只要保证模型是一层一层连接而成。给定一个任务,希望找到在上效果最佳的层混合模型,且模型的计算量满足一定的限制:
本文提出了一种新的知识迁移任务,称为深度模型重组 (Deep Model Reassembly, 简称DeRy)。他通过打散已有异质预训练模型并重新组装的方式,来构造与下游任务适配的模型。作者提出了一个简单的两阶段实现方式来完成这一任务。首先,DeRy求解一个覆盖集问题并对所有预训练网络按照功能级进行拆分;第二步中,DeRy将模型拼装形式化为一个0-1整数规划问题,保证组装后模型在特定任务上性能最佳。该工作不但收获了较强的性能提升,同时也映射出了不同神经网络之间可能存在的连接性。参考资料:https://arxiv.org/abs/2210.17409