SVDiff：用于扩散微调的紧凑参数空间 (SVDiff: Compact Parameter Space for Diffusion Fine-Tuning) - 专知论文

会员服务 ·

0

参数空间 · MoDELS · 过拟合 · 可约的 · 奇异的 ·

2023 年 3 月 20 日

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

翻译：SVDiff：用于扩散微调的紧凑参数空间

Ligong Han,Yinxiao Li,Han Zhang,Peyman Milanfar,Dimitris Metaxas,Feng Yang

from arxiv, 20 pages, 21 figures

Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language-drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size (1.7MB for StableDiffusion) compared to existing methods (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB), making it more practical for real-world applications.

翻译：扩散模型在文本到图像生成方面取得了显着的成功，使得从文本提示或其他模态生成高质量图像成为可能。然而，现有的自定义这些模型的方法受到处理多个个性化主题和过度拟合风险的限制，此外，它们的大量参数对于模型存储是低效的。在本文中，我们提出了一种新的方法来解决现有文本到图像扩散模型的个性化限制。我们的方法涉及微调权重矩阵的奇异值，从而获得一种紧凑而有效的参数空间，降低了过度拟合和语言漂移的风险。我们还提出了一种Cut-Mix-Unmix数据增强技术，以增强多主题图像生成的质量和一个简单的基于文本的图像编辑框架。我们提出的SVDiff方法具有显著较小的模型尺寸（StableDiffusion为1.7MB），相比现有方法（vanilla DreamBooth 3.66GB，Custom Diffusion 73MB）更适用于实际应用。

0

相关内容

参数空间

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

机器之心

2+阅读 · 2022年11月13日

Diffusion预训练成本降低6.5倍，微调硬件成本降低7倍！Colossal-AI完整开源方案低成本加速AIGC产业落地

Diffusion预训练成本降低6.5倍，微调硬件成本降低7倍！Colossal-AI完整开源方案低成本加速AIGC产业落地

机器之心

2+阅读 · 2022年11月9日

港科大&MSRA新研究：关于图像到图像转换，Fine-tuning is all you need

港科大&MSRA新研究：关于图像到图像转换，Fine-tuning is all you need

PaperWeekly

0+阅读 · 2022年7月5日

港科大&MSRA新研究：关于图像到图像转换，Finetuning is all you need

港科大&MSRA新研究：关于图像到图像转换，Finetuning is all you need

机器之心

0+阅读 · 2022年6月30日

使用BERT做文本摘要

使用BERT做文本摘要

专知

23+阅读 · 2019年12月7日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

LibRec 精选：推荐的可解释性[综述]

LibRec 精选：推荐的可解释性[综述]

LibRec智能推荐

10+阅读 · 2018年5月4日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

AntimiR-34a增强脂肪干细胞对骨形成蛋白高效诱导成骨作用反应性的分子机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

miR-148a调控Wnt5A拮抗剂基因甲基化修饰在结核感染过程中的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向BYOD数据防护机制的多维脆弱性攻击研究

国家自然科学基金

3+阅读 · 2013年12月31日

三维斑点追踪显像提高心脏再同步化治疗效果的实验和临床研究

国家自然科学基金

0+阅读 · 2012年12月31日

函数域中的Vinogradov中值定理

国家自然科学基金

0+阅读 · 2012年12月31日

基于视在位移参数的多普勒血流速度矢量测量方法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

扩散张量和扩散陡度张量成像对早期阿尔茨海默病和轻度认知障碍的研究

国家自然科学基金

0+阅读 · 2008年12月31日

Cross-boosting of WNNM Image Denoising method by Directional Wavelet Packets

Arxiv

0+阅读 · 2023年5月9日

SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Arxiv

0+阅读 · 2023年5月9日

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

Arxiv

0+阅读 · 2023年5月9日

LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models

Arxiv

1+阅读 · 2023年5月8日

Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data Poisoning

Arxiv

0+阅读 · 2023年5月7日

Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis

Arxiv

0+阅读 · 2023年5月5日

DisenBooth: Disentangled Parameter-Efficient Tuning for Subject-Driven Text-to-Image Generation

Arxiv

0+阅读 · 2023年5月5日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

Diffusion Models: A Comprehensive Survey of Methods and Applications

Arxiv

67+阅读 · 2022年9月2日

A Survey of Quantization Methods for Efficient Neural Network Inference

Arxiv

22+阅读 · 2021年6月21日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

热门VIP内容

开通专知VIP会员享更多权益服务

新书册《几何深度学习的数学基础》

中程单向攻击无人机的战略意义：俄乌战争启示

在无标注条件下适配视觉—语言模型：全面综述

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

相关资讯

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

机器之心

2+阅读 · 2022年11月13日

Diffusion预训练成本降低6.5倍，微调硬件成本降低7倍！Colossal-AI完整开源方案低成本加速AIGC产业落地

Diffusion预训练成本降低6.5倍，微调硬件成本降低7倍！Colossal-AI完整开源方案低成本加速AIGC产业落地

机器之心

2+阅读 · 2022年11月9日

港科大&MSRA新研究：关于图像到图像转换，Fine-tuning is all you need

港科大&MSRA新研究：关于图像到图像转换，Fine-tuning is all you need

PaperWeekly

0+阅读 · 2022年7月5日

港科大&MSRA新研究：关于图像到图像转换，Finetuning is all you need

港科大&MSRA新研究：关于图像到图像转换，Finetuning is all you need

机器之心

0+阅读 · 2022年6月30日

使用BERT做文本摘要

使用BERT做文本摘要

专知

23+阅读 · 2019年12月7日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

LibRec 精选：推荐的可解释性[综述]

LibRec 精选：推荐的可解释性[综述]

LibRec智能推荐

10+阅读 · 2018年5月4日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

相关论文

Cross-boosting of WNNM Image Denoising method by Directional Wavelet Packets

Arxiv

0+阅读 · 2023年5月9日

SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Arxiv

0+阅读 · 2023年5月9日

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

Arxiv

0+阅读 · 2023年5月9日

LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models

Arxiv

1+阅读 · 2023年5月8日

Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data Poisoning

Arxiv

0+阅读 · 2023年5月7日

Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis

Arxiv

0+阅读 · 2023年5月5日

DisenBooth: Disentangled Parameter-Efficient Tuning for Subject-Driven Text-to-Image Generation

Arxiv

0+阅读 · 2023年5月5日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

Diffusion Models: A Comprehensive Survey of Methods and Applications

Arxiv

67+阅读 · 2022年9月2日

A Survey of Quantization Methods for Efficient Neural Network Inference

Arxiv

22+阅读 · 2021年6月21日

相关基金

AntimiR-34a增强脂肪干细胞对骨形成蛋白高效诱导成骨作用反应性的分子机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

miR-148a调控Wnt5A拮抗剂基因甲基化修饰在结核感染过程中的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向BYOD数据防护机制的多维脆弱性攻击研究

国家自然科学基金

3+阅读 · 2013年12月31日

三维斑点追踪显像提高心脏再同步化治疗效果的实验和临床研究

国家自然科学基金

0+阅读 · 2012年12月31日

函数域中的Vinogradov中值定理

国家自然科学基金

0+阅读 · 2012年12月31日

基于视在位移参数的多普勒血流速度矢量测量方法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

扩散张量和扩散陡度张量成像对早期阿尔茨海默病和轻度认知障碍的研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员