Diffusion model (DM) has achieved SOTA performance by modeling the image synthesis process into a sequential application of a denoising network. However, different from image synthesis generating each pixel from scratch, most pixels of image restoration (IR) are given. Thus, for IR, traditional DMs running massive iterations on a large model to estimate whole images or feature maps is inefficient. To address this issue, we propose an efficient DM for IR (DiffIR), which consists of a compact IR prior extraction network (CPEN), dynamic IR transformer (DIRformer), and denoising network. Specifically, DiffIR has two training stages: pretraining and training DM. In pretraining, we input ground-truth images into CPEN$_{S1}$ to capture a compact IR prior representation (IPR) to guide DIRformer. In the second stage, we train the DM to directly estimate the same IRP as pretrained CPEN$_{S1}$ only using LQ images. We observe that since the IPR is only a compact vector, DiffIR can use fewer iterations than traditional DM to obtain accurate estimations and generate more stable and realistic results. Since the iterations are few, our DiffIR can adopt a joint optimization of CPEN$_{S2}$, DIRformer, and denoising network, which can further reduce the estimation error influence. We conduct extensive experiments on several IR tasks and achieve SOTA performance while consuming less computational costs.


翻译:扩散模型(DM)通过将图像合成过程建模为去噪网络的顺序应用,已经实现了SOTA的性能。然而,与生成每个像素的图像合成不同,大多数图像修复(IR)的像素是已知的。因此,对于IR,传统的DM在一个大模型上运行大量迭代来估计整个图像或特征图是低效的。为了解决这个问题,我们提出了一种针对IR高效的DM(DiffIR),它由一个紧凑的IR先验提取网络(CPEN)、动态IR转换器(DIRformer)和去噪网络组成。具体而言,DiffIR有两个训练阶段:预训练和DM训练。在预训练中,我们将地面真实图像输入CPEN$_{S1}$中,以捕获紧凑的IR先验表示(IPR)来指导DIRformer。在第二阶段中,我们训练DM,直接估计与预先训练的CPEN$_{S1}$相同的IRP,仅使用LQ图像。我们观察到,由于IPR只是一个紧凑的向量,DiffIR可以使用比传统DM更少的迭代次数来获取准确的估计,并生成更稳定和逼真的结果。由于迭代次数较少,我们的DiffIR可以采用CPEN$_{S2}$、DIRformer和去噪网络的联合优化,从而进一步减少估计误差影响。我们在几个IR任务上进行了广泛的实验,并在消耗更少的计算成本的情况下实现了SOTA性能。

0
下载
关闭预览

相关内容

信息检索杂志(IR)为信息检索的广泛领域中的理论、算法分析和实验的发布提供了一个国际论坛。感兴趣的主题包括对应用程序(例如Web,社交和流媒体,推荐系统和文本档案)的搜索、索引、分析和评估。这包括对搜索中人为因素的研究、桥接人工智能和信息检索以及特定领域的搜索应用程序。 官网地址:https://dblp.uni-trier.de/db/journals/ir/
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
65+阅读 · 2022年3月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2023年5月8日
Arxiv
29+阅读 · 2022年9月10日
Arxiv
17+阅读 · 2021年1月21日
VIP会员
相关VIP内容
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
65+阅读 · 2022年3月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员