CVPR 2022 | 一键解锁微软亚洲研究院计算机视觉领域前沿进展!

2022 年 6 月 21 日 微软研究院AI头条

（本文阅读时间：17分钟）

编者按：国际计算机视觉与模式识别会议（CVPR）是人工智能领域最具学术影响力的顶级会议之一。微软亚洲研究院也在4月成功举办了 CVPR 2022 论文分享会。今天，我们为大家精选了8篇微软亚洲研究院被 CVPR 2022 收录的优秀论文，带你探索计算机视觉领域的热点前沿！欢迎感兴趣的读者阅读论文原文。

基于神经压缩的视频复原

论文链接：https://arxiv.org/abs/2203.09208

视频复原任务非常依赖时序特征来获得更好的重建质量。现有的视频复原方法主要关注如何设计更好的网络结构去提取时序特征，例如双向传播。至于如何有效使用时序特征并和当前帧融合，通常容易被忽视。实际上时序特征通常包含大量噪声和不相关的信息，直接使用而不经过任何特征提纯，反而会干扰当前帧的复原。

为此，微软亚洲研究院的研究员们提出了一种基于神经压缩的算法来学习高效的时序特征表达。由于神经压缩为了节省比特会把无关的信息或者噪声丢弃，是个天然的去噪者，因此本文利用神经压缩去有效地过滤噪声的干扰并保留时序上最重要的信息。如图1 (b) 所示，研究员们会在特征融合之前，使用神经压缩去对时序特征提纯。为了实现对噪声的鲁棒性，本文为压缩模块设计了一种自适应并且可学习的量化机制，以便有效处理不同类别和不同程度的噪声干扰。在训练过程中，交叉熵损失函数和重建损失函数会引导量化模块的学习。

图1 (c) 展示了本文模型所学的特征有更强的噪声鲁棒性，并且更接近来自干净视频的特征。实验表明，这种特征学习方式帮助本文的模型在多个视频恢复任务中取得了最好的性能，包括视频去噪、视频去雨和视频去雾。而且本文的方法在复杂度上也优于之前最好的方法。尤其是在视频去噪任务上，本文的方法比 BasicVSR++ 提高了0.13 dB, 并且只有它0.23倍的复杂度。

图1：(a) 已有的视频复原框架，(b) 本文提出的基于神经压缩的视频复原框架，(c) t-SNE 可视化对比，(d) 性能对比

基于神经辐射流形的三维可控图像生成

论文链接：https://yudeng.github.io/GRAM/

传统的生成对抗网络（GAN）已经具备生成以假乱真二维图像的能力。但它们并不考虑生成图像中物体背后的三维几何性质，因此无法生成物体的多视角图像。近两年，一些能够实现三维视角控制的生成对抗网络逐渐出现。给定一类物体的单视角图像集作为训练数据，这些方法可以利用图像上的对抗学习过程生成物体的多视角图像。实现这一点的关键因素是将物体的三维表达与图像生成过程相结合，其中最先进的方法利用了神经辐射场（NeRF）作为物体表达。

然而，已有的、基于 NeRF 的生成对抗网络的图像生成质量与传统的二维图像生成对抗网络仍有较大的差距。研究员们观察到，造成这一问题的一个重要原因是 NeRF 的体渲染过程与对抗学习过程相结合时内存开销较大，限制了体渲染时每条光线允许的采样点个数。在采样点数量有限时，NeRF 表征不能有效的处理物体的精细几何纹理，且其渲染图像中含有明显的噪声图案，严重影响了对抗学习过程的稳定性。

本文提出了一种新型的神经辐射流形表达来解决 NeRF 与对抗学习结合时的上述问题。神经辐射流形将辐射场的学习与图像渲染时的采样点限制在三维空间中的一簇二维曲面流形上，有助于网络在曲面上学习物体的精细结构，并有效避免了图像渲染时的噪声图案。实验表明，基于神经辐射流形表征，研究员们极大地提高了生成图像的真实感与其视角变化下的三维一致性。

图2：基于神经辐射流形的图像生成过程示意图

StyleSwin – 用Transformer搭建适于高质量图像生成的的生成对抗网络

论文链接：https://www.microsoft.com/en-us/research/publication/styleswin-Transformer-based-gan-for-high-resolution-image-generation/

以生成对抗网络为代表的图像生成模型在过去几年间取得了巨大发展。其早期的研究主要集中在让对抗训练更加稳定，而近年来生成质量的突破则主要受益于更具表达能力的网络的提出，如引入注意力机制、采用更大的网络以及 Style-based 生成器。

近期，Transformer 获得了极大的关注，并在一系列判别任务中取得巨大成功。受此启发，微软亚洲研究院的研究员们尝试探究 Transformer 的一系列优异特性，尤其是长距离建模能力，是否对生成任务也有帮助。而构建基于 Transformer 的生成器网络，就需要克服在高分辨率图像生成时计算复杂度过高的问题。为此研究员们采用了微软亚洲研究院提出的 Swin Transformer 作为基本模块，以在计算复杂度和模型表达能力间取得良好的平衡。

研究员们还进一步提出了若干改进，使得 Swin Transformer 可以更好的适配图像生成任务。首先，整个生成器采用了 Style-based 结构，并探究若干种适于 Transformer 模块的风格注入机制。其次，研究员们提出用 double attention 来代替 Swin Transformer 中的重叠窗口，使得每一层 Transformer 模块有更大的注意力范围。此外，研究员们指出对于生成模型，有必要同时采用相对位置编码和绝对位置编码。

图3：（左）StyleSwin 网络结构，（右）256x256生成结果稳定超越 StyleGAN

更重要的，研究员们发现局部窗口内计算注意力会有产生类似于 DCT 压缩时的块状瑕疵（blocking artifact），这个问题仅在生成任务中才会被注意到。为此，研究员们提出了基于小波变换的判别器模型在频域空间识别这种块状瑕疵的方法，有效提升了肉眼感知下的生成质量。

本文提出的 StyleSwin 在若干数据集，FFHQ, CelebA-HQ, LSUN church, LSUN car等标准数据集上都取得了有竞争力的生成质量。在256x256分辨率上，StyleSwin 超越了现有所有 GAN 的方法，在1024x1024分辨率上取得和 StyleGAN2 相当的图像质量。本文的意义在于首次验证了 Transformer 模型在高分辨率、高质量图像生成任务中的有效性，对生成网络基础网络的发展做出了新的启发。

基于量化去噪扩散模型的图像到文本生成

论文链接：https://arxiv.org/abs/2111.14822

文本到图像的生成是近些年来的一个热点生成问题。之前的相关工作主要分为生成对抗网络和自回归模型两大类。生成对抗网络受限于拟合能力，往往只能拟合单个场景或者类别的图像。自回归模型则将图像生成问题转换成了序列化生成问题，然而，该方法具有单向偏差、误差累积的问题，并且生成图像的速度较慢。本文提出了一种新型生成模型，量化去噪扩散模型（VQ-Diffusion），该方法能很好地解决以上问题。具体来说，该方法首先利用矢量量化变分自编码器（VQVAE）将图像编码成离散编码，再利用条件化的去噪扩散模型（DDPM）拟合隐空间的分布。

与连续空间的量化去噪模型不同，为了拟合离散的数据分布，研究员们利用概率转移矩阵而不是高斯噪声，在去噪扩散模型的加噪步骤中对目标分布加噪。具体来说，本文提出了遮挡与替换的加噪策略，可以成功地避免误差累积的问题。此外，通过利用双向注意力机制进行去噪，该方法避免了单向偏差的问题。本文还提出了给离散扩散模型加上重参数化技巧，从而有效地平衡生成速度和图像质量。量化去噪扩散模型的示意图如图4所示：

图4：VQ-Diffusion 的算法流程图

本文在很多文本到图像生成的数据集上做了实验，包括 CUB-200，Oxford-102，以及 MSCOCO。与自回归模型相比，采用相似参数量时，量化扩散模型能在生成速度快15倍的情况下，获得更好的生成结果。与之前基于生成对抗网络的文本到图像生成的方法相比，该算法则能处理更复杂的场景，极大提升生成图像的质量。此外，该方法还具有普适性，可用于无条件图像生成（如 FFHQ）和条件图像生成（如 ImageNet）。

基于多模态迁移学习的手语翻译模型

论文链接：https://arxiv.org/abs/2203.04287

全世界有7000万聋人在使用着200多种手语，研究手语翻译（SLT）有助于增进聋人和听人之间的沟通。近几年来，机器手语翻译（SLT）遵循机器文本（NMT）翻译框架，采用编码-解码器架构将视觉信号翻译成自然语言。然而，与 NMT 的成功相比，SLT 存在着数据稀缺的问题。为了解决这个问题，本文提出了一个简单有效的多模态迁移学习手语翻译模型，采用逐步预训练的方法：先后将模型在通用域和域内数据集上训练。通过从现有数据集中迁移知识，研究员们希望可以减少对数据的依赖。研究员们使用手语转写标注（Gloss）作为中间表示，将 SLT 分解为 Sign2Gloss 和 Gloss2Text，以便可以在两个域上分别对视觉和语言模块进行预训练。

图5：研究员们将手语翻译拆分成为视觉任务（左侧）和语言任务（右侧），并用一个视觉-语言映射器（V-L Mapper）来连接两个任务，之后分别对视觉和语言网络在大规模数据上进行预训练，实现迁移学习，最后对整个模型进行联合训练。

本文的模型包括：一个用于提取视频特征的视觉模块、一个将视频特征翻译成文本的语言模块和一个连接以上两个模块的视觉-语言映射器。对于视觉模块，研究员们首先在 Kinetics-400（动作识别数据集）和 WLASL（美国手语单词识别数据集）上预训练 S3D 网络，之后在目标数据集上以 Sign2Gloss 为训练任务进一步训练视觉编码器。对于语言模块，研究员们使用了在大规模文本语料库上预训练过的 mBART 模型，之后在目标数据上利用 Gloss2Text 进一步训练语言模块。利用一个由两层 MLP 组成的 V-L 映射器，研究员们将视觉特征变换到了翻译网络的输入中。这样，两个预训练模块通过视觉特征连接起来，整个模型将可以实现联合训练。

本文的模型大幅超过了之前的手语翻译方法：在 Phoenix-2014T 和 CSL-Daily 上分别达到了28.4和23.9的 BLEU-4。此外，本文也进行了消融实验来验证了该迁移学习策略的有效性。

重新思考对比学习中的最小充分表示

论文链接：https://arxiv.org/abs/2203.07004

作为一种自监督学习方法，对比学习近年来被当作预训练的主要方法广泛应用于视频和图像领域。由于对比学习使用数据的不同“视角”互相监督，学习到的数据表示往往只包含“视角”之间的的共享信息，而排斥它们的非共享信息。换言之，对比学习最终的结果是学习到了不同“视角”之间的最小充分表示。这样就产生了一个疑问——被排斥掉的非共享信息是不是包含对下游任务有贡献的内容？由于“视角”的产生高度依赖增强方法，而下游任务相关的信息在预训练阶段往往是缺失的，所以从直观上看这种可能性的确存在。

通过从信息论方面进行严谨的推理证明和实验验证，微软亚洲研究院的研究员们发现最小充分表示排斥的非共享信息中确实包含下游任务相关的有用信息，从而揭示了对比学习有过拟到“视角”共享信息的风险。这种风险会严重降低预训练模型的通用性和在下游任务上的性能。为此，研究员们认为对比学习应该学习“视角”之间的充分表示而不是最小充分表示，并且提出了一种简单有效而且通用的方法：增加对比学习中“视角”之间的互信息。简单来说，就是在学习“视角”共享信息的同时，也尽可能学习下游任务相关的非共享信息。在此基础上，研究员们提出了两种通用的预训练策略，一种是通过重构输入数据引入更多的原始输入信息达到增加非共享信息的目的；另一种是通过加入正则项计算互信息的下限来直接提高互信。大量的实验结果表明，我们提出的预训练策略在分类，检测和分割等一系列下游任务中都极大地提高了精度。

图6：对比学习中充分表示和最小充分表示的信息分布图

SimMIM：一个简单的图像掩码建模框架

论文链接：https://arxiv.org/abs/2111.09886

代码地址：https://github.com/microsoft/SimMIM

掩码信号建模（Masked Signal Modeling）是一种通过利用部分可见信息来预测不可见信息的预训练方法。其在自然语言处理（NLP）领域中的应用——掩码语言建模（Masked Language Modeling, MLM）已经成为了 NLP 领域中最具代表性且应用最广泛的预训练方法。

事实上，在计算机视觉领域也出现了一系列使用掩码图像建模（Masked Image Modeling, MIM）来进行视觉模型预训练的尝试，但之前的方法往往需要引入额外的设计。本文中，研究员们提出了一种简单的预训练框架 SimMIM，证明了仅使用简单的随机掩码策略以及单层线性解码器来恢复原始图像信号就可以实现良好的视觉模型预训练，并学习到高质量的图像表征。

图7：SimMIM 使用简单的随机掩码策略和一个轻量的单层线性解码器来重构图像的原始信号，并使用简单的 l1 损失函数进行预训练。

SimMIM 可以适配任意的基础网络，包括 ViT，Swin 以及 ConvNets。如图8（左）所示，在使用 ViT-B 时，SimMIM 取得了比其他方法更好的微调性能，同时花费的训练成本更低。

图8：（左）SimMIM 与其他方法在使用 ViT-B 时的性能比较。（右）SimMIM 在使用 Swin 时与有监督预训练（Supervised Pre-training）的比较。

图8（右）则展示了 SimMIM 在使用 Swin 时取得了比有监督预训练（Supervised pre-training）更好的性能，并且模型越大，SimMIM 的优势就越明显，这说明 SimMIM 是一个良好的模型扩展学习器（model scalable learner）。通过使用 SimMIM，具有3B参数量的 Swin-G 可以在 ImageNet-1K 图像分类任务中取得90.2%的 Top-1 Acc。

SimMIM 不仅适用于基于 Transformer 的网络，其对 ConvNets 也同样有效。ResNet-50×4 使用 SimMIM 可以取得81.6%的 Top-1 Acc，高于有监督预训练获得的80.7%的结果。这些实验证明了 SimMIM 的广泛适用性。

学习轨迹感知Transformer的视频超分辨率网络

论文链接：https://arxiv.org/abs/2204.04216

代码链接：https://github.com/researchmm/TTVSR

视频超分辨率（VSR）旨在从低分辨率（LR）的对应帧中恢复高分辨率（HR）的视频帧。尽管如今视频超分辨率领域已经取得了一定的进展，但是在如何有效利用整个视频的时间信息方面仍然存在着巨大的挑战。现有的方法通常通过对齐和聚合短距离相邻帧（如5或7帧）的信息来生成高分辨率的帧，所以无法获得令人满意的结果。

本文提出了一种新颖的轨迹感知的 Transformer 来执行视频超分任务（TTVSR），该方法通过引入运动轨迹进一步探索了视频中更有效的空间和时间上的信息学习方法。具体来说，TTVSR 将整个视频中的帧作为视觉特征，并将时空中一些连续的视觉特征定义为一些在内容上预先对齐的时空轨迹，对于其中的每个 query，自注意力机制只是沿着预先定义的时空轨迹来执行。为了实现上述轨迹的建模，研究员们提出了巧妙的位置图机制，该机制通过对预先定义的视觉特征的坐标位置图执行运动变换，来达到建模视觉特征轨迹的目的。相比于传统的在整个时空执行自注意力机制的 Transformer 来说，轨迹感知的 Transformer 大大降低了计算成本，并使 Transformer 能够对长距离的视频特征进行建模。

图9：基于轨迹感知的视频超分辨率 Transformer 的网络结构图

同时，本文还进一步提出了一个跨尺度特征标记化模块来克服长距离视频中频繁出现的目标尺度变化问题。通过对四个广泛使用的视频超分辨率基准数据集进行大量的定量和定性评估，实验结果表明本文所提出的轨迹感知的 Transformer 比其他最先进的模型更具有优势。相关的代码和模型已经在 GitHub 开源： https://github.com/researchmm/TTVSR。