CVPR2020 | 参数量减半,北大开源全新高效空域转换模块,还原图像逼真细节

2020 年 4 月 9 日 专知



很多图像生成任务都需要在空域对输入图像进行移动和重新排列。然而,卷积神经网络难以进行高效的空域转换操作。近日,来自北大和鹏城实验室的研究者们提出了一种全新的空域转换模块 Global-Flow Local-Attention 。这一模块将光流和注意力机制结合起来,通过首先提取源图像与目标图像之间的整体相关性,得到全局的光流图。然后利用光流图,采样局部的特征块以进行局部的注意力操作。

他们在人体姿态转换任务上测试了提出模型的优越性。实验结果证明模型可以对输入图像进行准确高效地空域转换:输出结果图像保持了输入图像中逼真的细节纹理;同时,模型的参数量不足现有主流方法的一半。

每一组图像中,左侧为生成图像,右侧为输入图像。箭头展示了文章提出的Global-Flow Local-Attention模块对输入数据的空间移动过程

此外文章还将提出的模块用于Image Animation任务。通过输入连续的指导信息来生成逼真的运动视频。




Global-Flow Local-Attention模型简介



文章所提出的模型架构如上图所示。具体来说,模型可以被分为两个模块: 全局光流提取器 局部特征渲染器 。全局光流提取器用来提取源图像和目标图像之间的光流场。而局部特征渲染器则利用提取到的光流场从源图像中采样逼真的纹理信息,从而对目标图像的骨架进行渲染,得到结果图像。


为了使模型稳定地收敛,在局部特征渲染器中,文章没有采用传统的双线性插值进行采样。而是使用了内容感知的局部注意力机制。这一操作的具体流程如上图所示。首先,从源特征以及目标特征中提取局部的图像块。利用局部采样核预测网络来预测图像块对之间的注意力系数。这一系数被用做采样参数来采样提取的局部特征块。以得到最终的采样结果。

那么算法的实际效果如何呢?


作者在两个数据集上进行了对比实验。在客观指标FID和LPIPS上算法都有明显的优势。同时他们也在MTurk平台邀请志愿者进行了主观测试的实验。JND(Just Noticeable Difference)表示了各个方法生成的结果与真实图像对比时的欺骗率。可以看到文章提出的算法取得了很好的测试结果。
 

从不同算法的结果图像中可以看出文章所提出的算法不仅能够生成正确的姿势,同时还能够还原出结果图像逼真的纹理信息,例如:衣服上的图案花纹、鞋带的样式等等。



此外,文章还进行了详尽的消融实验来验证假设的正确性。对比的模型包括:不使用任何Attention模块(Baseline);使用传统的Global Attention模块(Global-Attn);使用光流模块,但是采用双线性插值进行采样(Bi-sample)以及完整的模型(Full Model)。可以看出,采用完整Global-Flow Local-Attention模块的模型(Full Model)取得了最好的性能。

 


通过分析消融实验的主观结果图像可以进一步地为这一结论寻找可能的解释。Baseline难以恢复细节信息,因为它使用一种先将原始信息抽象,后扩散至局部的方式来生成结果图像。Global-Attn将某一特征与全部的特征计算相似度并采样。这样的采样方式并不符合该任务的需求,因此结果图像无法恢复逼真的细节信息。Bi-sample会因为错误的采样而导致性能下降。Full Model维持了良好的结构和细节信息。



传递门


想要了解更多的细节请参看论文:
https://arxiv.org/pdf/2003.00696.pdf
同时作者也开源了实验代码:
https://github.com/RenYurui/Global-Flow-Local-Attention


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
已删除
将门创投
5+阅读 · 2019年9月10日
已删除
将门创投
11+阅读 · 2019年7月4日
已删除
将门创投
7+阅读 · 2018年8月28日
北大开源ECCV2018深度去雨算法:RESCAN
极市平台
8+阅读 · 2018年7月19日
基于GAN的极限图像压缩框架
论智
11+阅读 · 2018年4月15日
Teacher-Student Training for Robust Tacotron-based TTS
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年9月10日
已删除
将门创投
11+阅读 · 2019年7月4日
已删除
将门创投
7+阅读 · 2018年8月28日
北大开源ECCV2018深度去雨算法:RESCAN
极市平台
8+阅读 · 2018年7月19日
基于GAN的极限图像压缩框架
论智
11+阅读 · 2018年4月15日
相关论文
Teacher-Student Training for Robust Tacotron-based TTS
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
7+阅读 · 2018年1月21日
Top
微信扫码咨询专知VIP会员