Video deblurring is still an unsolved problem due to the challenging spatio-temporal modeling process. While existing convolutional neural network-based methods show a limited capacity for effective spatial and temporal modeling for video deblurring. This paper presents VDTR, an effective Transformer-based model that makes the first attempt to adapt Transformer for video deblurring. VDTR exploits the superior long-range and relation modeling capabilities of Transformer for both spatial and temporal modeling. However, it is challenging to design an appropriate Transformer-based model for video deblurring due to the complicated non-uniform blurs, misalignment across multiple frames and the high computational costs for high-resolution spatial modeling. To address these problems, VDTR advocates performing attention within non-overlapping windows and exploiting the hierarchical structure for long-range dependencies modeling. For frame-level spatial modeling, we propose an encoder-decoder Transformer that utilizes multi-scale features for deblurring. For multi-frame temporal modeling, we adapt Transformer to fuse multiple spatial features efficiently. Compared with CNN-based methods, the proposed method achieves highly competitive results on both synthetic and real-world video deblurring benchmarks, including DVD, GOPRO, REDS and BSD. We hope such a Transformer-based architecture can serve as a powerful alternative baseline for video deblurring and other video restoration tasks. The source code will be available at \url{https://github.com/ljzycmd/VDTR}.


翻译:由于具有挑战性的片段时空建模过程,视频破碎是一个尚未解决的问题。虽然基于当前神经神经网络的现有方法显示,为视频破碎进行有效空间和时间建模的有限空间和时间建模能力。本文展示了VDTR, 这是一种有效的变压器型模型,首次尝试将变压器改造为视频破碎。 VDTR利用变压器的高级长程和关系建模能力进行空间和时空建模。然而,设计一个基于变压器的视频破碎设计模型却具有挑战性。由于复杂的非统一平面平面平面平面模糊、多框架错配以及高分辨率空间建模计算成本高。为了解决这些问题,VDTR倡导在非重叠窗口内进行关注,并利用远程依赖型建模的等级结构。关于框架级空间建模,我们提议一个基于变压器的变压变压变压器,利用多尺度的变压模型的变压机变压模型。对于多框架的变压器-变压器-变压机-变压机-变压机-变压机-变压机的变压机-变压机-变压机-变压机-变换的变压机-变压机-变压-变压机-变压-变压机-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变制-变压-变压-变压-变压-变压-变压-变压-变制-变制-变制-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-变压-制-变压-

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年6月8日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关论文
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员