In this paper, we investigate the task of hallucinating an authentic high-resolution (HR) human face from multiple low-resolution (LR) video snapshots. We propose a pure transformer-based model, dubbed VidFace, to fully exploit the full-range spatio-temporal information and facial structure cues among multiple thumbnails. Specifically, VidFace handles multiple snapshots all at once and harnesses the spatial and temporal information integrally to explore face alignments across all the frames, thus avoiding accumulating alignment errors. Moreover, we design a recurrent position embedding module to equip our transformer with facial priors, which not only effectively regularises the alignment mechanism but also supplants notorious pre-training. Finally, we curate a new large-scale video face hallucination dataset from the public Voxceleb2 benchmark, which challenges prior arts on tackling unaligned and tiny face snapshots. To the best of our knowledge, we are the first attempt to develop a unified transformer-based solver tailored for video-based face hallucination. Extensive experiments on public video face benchmarks show that the proposed method significantly outperforms the state of the arts.


翻译:在本文中,我们从多个低分辨率(LR)视频片片片中,对真实的高分辨率(HR)人脸进行幻觉研究。我们提出了一个纯粹的变压器模型,称为VidFace,以充分利用全程时空信息和面部结构提示。具体地说,VidFace一次性处理多个片片,利用空间和时间信息整体探索所有框架的面部对齐,从而避免累积校正错误。此外,我们设计了一个经常嵌入模块,为我们的变压器配备面部前科,这不仅有效地规范了校准机制,而且还取代了臭名昭著的训练前期。最后,我们从公众Voxceleb2 基准中绘制了一个新的大型面部幻觉数据。这是对处理不相近和微小面片片的前科的挑战。我们最了解的是,我们第一次尝试开发一个统一的变压器求解器,用于视频面镜。在公共视频脸部基准上的大规模实验显示拟议方法大大超越了状态艺术。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2018年8月21日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
相关资讯
Top
微信扫码咨询专知VIP会员