计算机视觉领域2019推荐论文列表

2020 年 1 月 15 日 微软研究院AI头条

1. Deep High-Resolution Representation Learning for Human Pose Estimation

论文链接：https://arxiv.org/pdf/1902.09212.pdf

该论文在提出了一个新的网络High-Resolution Network (HRNet)，可以学到空间精度高语义强的高分辨率表。该网络设计的不同于其他主流网络的有两大关键点：一直保持高分辨率表征；并联不同分辨率的卷积分支。在人体骨架点检测以及目标检测、图像语义分割、人脸关键点检测等视觉问题上取得了领先的结果，被同行广泛接受和使用。该论文发表在CVPR 2019。

开源地址：https://github.com/HRNet

https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

2. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

论文链接：https://arxiv.org/pdf/1908.08530.pdf

该文发表于ICLR 2020，是最早提出图像和文本联合预训练模型的论文之一。研究员提出了一种新的通用的多模态预训练模型VL-BERT，该模型采用简单而强大的Transformer模型作为主干网络，并将其输入扩展为同时包含视觉与语言输入的多模态形式，适用于绝大多数视觉语义下游任务。为了让VL-BERT模型利用更为通用的特征表示，研究员在大规模图片描述生成数据集Conceptual Captions中进行VL-BERT的预训练，实验证明此预训练过程可以显著提高下游的视觉语义任务的效果，包含视觉常识推理、视觉问答与引用表达式理解等。

3. A Relation Network Based Approach to Curved Text Detection

论文链接：https://icdar2019.org/list-of-accepted-papers/

该论文创新地提出了一套基于关系网络（Relation Network）的新型文字检测框架，有效提升了通用文本行检测的准确率。该论文发表在ICDAR 2019会上。

4. An Anchor-free Region Proposal Network for Faster R-CNN-based Text Detection Approaches

论文链接：https://www.springerprofessional.de/en/an-anchor-free-region-proposal-network-for-faster-r-cnn-based-te/17013452

该论文提出了一种称为anchor-free RPN的物体检测算法来解决经典RPN算法无法有效预测任意方向文本框的问题。该算法不仅在单词级别的文字检测任务上取得很好的结果，而且类似思想在当前物体检测领域也成为主流。该论文发表在IJDAR期刊上。

5. Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering

论文链接：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/0005880.pdf

该论文提出了一种通用分布式优化算法，在增量式学习框架内引入逐块模型更新滤波(BMUF)算法，在线性加速深度学习模型训练的同时，保持模型的准确率。该论文发表在ICASSP 2016会上。

6. Compressing CNN-DBLSTM Models for OCR with Teacher-Student Learning and Tucker Decomposition

论文链接：https://www.sciencedirect.com/science/article/abs/pii/S0031320319302547

该论文提出了一种针对CNN-DBLSTM模型中运算代价最大的CNN部分进行压缩加速的方法，即首先在LSTM部分的指导下，对CNN部分进行知识蒸馏，然后利用Tucker分解算法，对CNN进行进一步压缩和加速，由此得到的模型运行时相比原始模型加速14倍，解决了部署难题。该论文发表在Pattern Recognition期刊上。

7. An Open Vocabulary OCR System with Hybrid Word-Subword Language Models

论文链接：https://ieeexplore.ieee.org/abstract/document/8270022

该论文提出了一种以词与子词为基本语言单元的混合语言模型，来解决光学字符识别（OCR）中的集外词（Out of Vocabulary, OOV）问题。该论文发表在ICDAR 2017 会上。

8. Relation Networks for Object Detection

论文链接：https://arxiv.org/pdf/1711.11575.pdf

在CVPR 2018上，该论文提出了一种即插即用的物体关系模块，第一次实现了完全端到端的物体检测器，该方法也是自注意力模型在视觉领域最早的应用之一。

9. Learning Region Features for Object Detection

论文链接：https://arxiv.org/pdf/1803.07066.pdf

在ECCV 2018上，该论文给出了区域特征提取的通用表达式，并提出了一个完全可学习的区域特征提取方法。

10. Local Relation Networks for Image Recognition

论文链接：https://arxiv.org/pdf/1904.11491.pdf

在ICCV 2019上，该论文提出了一种新的完全无需卷积的神经网络，在ImageNet图像分类基准数据集上取得了超越卷积神经网络的准确率。

11. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

论文链接：https://arxiv.org/pdf/1904.11492.pdf

在ICCVW 2019上，该论文改变了学界对于流行的非局部网络工作机制的认识，并提出了一个新的高效的全局关系网络。

12. An Empirical Study of Spatial Attention Mechanisms in Deep Networks

论文链接：https://arxiv.org/pdf/1904.05873.pdf

在ICCV 2019上，研究员提出了一种关于空间注意力机制的通用表达形式，并分析了这一通用表达形式中不同的表达项在各种视觉任务上的表现，为今后空间注意力机制的应用提供参考。

13. Deep Metric Transfer for Label Propagation with Limited Annotated Data

论文链接：https://arxiv.org/pdf/1812.08781.pdf

该论文提出了一种新的半监督学习/迁移学习/小样本学习范式，该范式的核心是利用无监督预训练方法来获得初始图像特征，其在半监督学习上取得近20%（绝对值）的准确率提升，文章发表在ICCVW 2019上。

14. Deformable ConvNets v2: More Deformable, Better Results

论文链接：https://arxiv.org/pdf/1811.11168.pdf

在CVPR 2019上，该论文提出了更强的可变形卷积网络，相比标准卷积其能广泛且显著提升各种视觉感知任务的准确率，包括图像分类，物体检测，语义分割，物体跟踪等等，例如在COCO物体检测基准测试中，相比相同条件下的标准卷积网络能取得近7个点的提升。

15. RepPoints: Point Set Representation for Object Detection

论文链接：https://arxiv.org/pdf/1904.11490.pdf

边界框是视觉物体表示的标准方法，在ICCV 2019上，该论文提出了一种基于点集来替代边界框的物体表示新方法，这一新方法具有更强的表示能力和可解释性。基于这一新的表示，得到了当时最好的无锚点检测器。这一表示方法最近还被推广到实例分割和人体姿态估计中。

16. A Twofold Siamese Network for Real-Time Object Tracking

论文链接：https://arxiv.org/abs/1802.08817

该文章发表在CVPR 2018上，提出了双路孪生网络进行视觉物体跟踪的方案，简称为SA-Siam，其中S代表的是语义（Semantic）分支，而A则代表外观（Appearance）分支。两个分支既独立又互补，取得了极佳的跟踪效果。

17. SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

论文链接：https://arxiv.org/abs/1904.04452

在CVPR 2019上，该文章提出了双阶段匹配和创新的串并联结构实现物体的鲁棒、精准跟踪。SPM跟踪器在粗匹配阶段侧重语义理解，在细匹配阶段侧重外观表达，并通过不同训练方式获得了理想的平衡。

18. Unsupervised High-Resolution Depth Learning from Videos With Dual Networks

论文链接：https://arxiv.org/abs/1910.08897

文章发表在ICCV 2019上，提出了基于双网络结构的深度估计学习架构，使用较深的网络提取低分辨率输入图像中的全局特征信息，使用较浅的网络提取高分辨输入图像中的细节特征信息，再将二者结合用来估计高分辨率的深度。与以往方法相比，该方法以更低的计算量获取了更好的深度估计效果，特别是对于图像的精细区域和远距离区域等对分辨率敏感区域的深度估计结果提升显著。

19. Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments

论文链接：https://arxiv.org/abs/1910.08898

在ICCV 2019上，该文章提出了更为鲁棒的光流重建监督信号，以解决难度更大的室内场景下的无监督深度估计。与传统的图像重建信号相比，针对纹理缺失严重的室内场景，利用稀疏到稠密的光流估计方法获取稳定的光流估计，并将光流信息输入相机估计网络克服相机运动复杂的难题，从而实现了深度布局更为复杂多样的室内场景下的稳定的深度估计。

20. Cross View Fusion for 3D Human Pose Estimation

论文链接：https://arxiv.org/abs/1909.01203

文章发表在ICCV 2019上，提出了首个跨摄像头的特征融合网络，通过将“容易”视角的特征融合到“困难”视角，有效地解决了遮挡问题。在Benchmark数据集上显著降低了三维姿态的估计误差。

21. Optimizing Network Structure for 3D Human Pose Estimation

论文链接：https://www.chunyuwang.org/img/ICCV_2019_CiHai.pdf

在ICCV 2019上，该文章提出了基于人体模型的网络Locally Connected Network，该网络参数量少，能够有效缓解Over-fitting。

22. Online Dictionary Learning for Approximate Archetypal Analysis

论文链接：https://www.microsoft.com/en-us/research/publication/online-dictionary-learning-for-approximate-archetypal-analysis/

该文章发表在ECCV 2018上，提出了人体姿态的低维表达方法，通过投影的方式保证姿态估计的正确性。

23. Part-Aligned Bilinear Representations for Person Re-identification

论文链接：http://arxiv.org/pdf/1804.07094.pdf

该文在作者前面的工作弱监督 Deeply-Learned Part-Aligned Representations（https://arxiv.org/pdf/1707.07256.pdf）基础上，引进了人体姿态来帮助人体部件对齐，提升了行人重识别性能。该文发表在ECCV 2018。

24. Semantics-Aligned Representation Learning for Person Re-identification

论文链接：https://arxiv.org/abs/1905.13143

本文即将发表在AAAI 2020上，提出了基于语义对齐的特征学习网络进行行人重识别。我们通过引入对人体空间语义对齐的全视图的重建任务，实现了赋予网络由单（视角）张图像预测全视角人体外观的能力，解决了行人重识别中图像间空间语义不对齐的难题。

25. Uncertainty-aware Multi-shot Knowledge Distillation for Image-based Object Re-identification

论文链接：https://www.msra.cn/wp-content/uploads/2020/01/Uncertainty-aware-Multi-shot-Knowledge-Distillation-for-Image-based-Object-Re-identification.pdf

将发表在AAAI 2020上，通过对同一目标的不同图片的信息的联合学习，获取更全面的对该目标的特征表达，并利用Teacher-Student网络来针对性地将学到的更全面的信息传递给学生网络(单张图像为输入)，实现了测试阶段仅需要单张图片作为输入，但更全面和高判别力的特征提取。

26. Mask-Guided Portrait Editing with Conditional GANs

论文链接：https://arxiv.org/abs/1905.10346

文章发表于CVPR 2019，本模型解决了人脸合成中的三个问题：多样性，高质量和可控性。在本文中，研究员们提出了一个基于cGAN的框架，可以分别对眼睛、鼻子、嘴、皮肤和头发进行编辑。我们的模型有许多应用，例如人脸编辑，改变发型，放大眼睛，或者使其微笑。此外，研究员们可以局部修改现有人脸的外观。

27. Learning Pyramid Context Encoder Network for High-Quality Image Inpainting

论文链接：http://openaccess.thecvf.com/content_CVPR_2019/papers/Zeng_Learning_Pyramid-Context_Encoder_Network_for_High-Quality_Image_Inpainting_CVPR_2019_paper.pdf

论文发表CVPR 2019，基于“由深到浅，多次补全”的构想，提出了一种金字塔式注意力机制的上下文编码网络，可以生成语义合理且纹理细节丰富的图像内容。

28. Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language

论文链接：https://arxiv.org/pdf/1912.03590.pdf

论文发表在AAAI 2020，提出了时序信息处理问题中一种全新的建模思路——二维时间图，在基于自然语言描述的视频内容定位和视频内人体动作检测两个任务上验证了其有效性。

29. Structured Knowledge Distillation for Semantic Segmentation

论文链接：https://arxiv.org/abs/1903.04197v1

文章发表在CVPR 2019。该文提出了结构化的知识蒸馏方法，来蒸馏图像分割中的全局结构化信息以提升轻便网络的性能。

开源地址：https://github.com/irfanICMLL/structure_knowledge_distillation