Discrete Wavelet Transform (DWT) has been widely explored to enhance the performance of image superresolution (SR). Despite some DWT-based methods improving SR by capturing fine-grained frequency signals, most existing approaches neglect the interrelations among multiscale frequency sub-bands, resulting in inconsistencies and unnatural artifacts in the reconstructed images. To address this challenge, we propose a Diffusion Transformer model based on image Wavelet spectra for SR (DTWSR). DTWSR incorporates the superiority of diffusion models and transformers to capture the interrelations among multiscale frequency sub-bands, leading to a more consistence and realistic SR image. Specifically, we use a Multi-level Discrete Wavelet Transform to decompose images into wavelet spectra. A pyramid tokenization method is proposed which embeds the spectra into a sequence of tokens for transformer model, facilitating to capture features from both spatial and frequency domain. A dual-decoder is designed elaborately to handle the distinct variances in low-frequency and high-frequency sub-bands, without omitting their alignment in image generation. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness of our method, with high performance on both perception quality and fidelity.


翻译:离散小波变换(DWT)已被广泛探索用于提升图像超分辨率(SR)的性能。尽管一些基于DWT的方法通过捕捉细粒度频率信号改进了SR效果,但现有方法大多忽视了多尺度频率子带间的相互关系,导致重建图像存在不一致性和非自然伪影。为应对这一挑战,我们提出了一种基于图像小波谱的扩散Transformer超分辨率模型(DTWSR)。DTWSR融合了扩散模型和Transformer的优势,以捕捉多尺度频率子带间的关联,从而生成更一致且逼真的超分辨率图像。具体而言,我们采用多级离散小波变换将图像分解为小波谱,并提出一种金字塔标记化方法,将谱信息嵌入为适用于Transformer模型的标记序列,以同时从空间域和频率域提取特征。模型精心设计了双解码器,分别处理低频与高频子带的差异特征,并在图像生成过程中保持二者的对齐。在多个基准数据集上的大量实验验证了本方法的有效性,其在感知质量与保真度方面均表现出优异性能。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
专知会员服务
23+阅读 · 2021年6月22日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
专知会员服务
23+阅读 · 2021年6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员