【学科发展报告】计算机视觉

2018 年 10 月 12 日 中国自动化学会

一、引言

近年来，巨量数据的不断涌现与计算能力的快速提升，给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题，计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域，部分研究成果已实际应用，催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。

计算机视觉的研究目标是使计算机具备人类的视觉能力，能看懂图像内容、理解动态场景，期望计算机能自动提取图像、视频等视觉数据中蕴含的层次化语义概念及多语义概念间的时空关联等。自 2012 年以来，计算机视觉领域不断涌现出很多激动人心的研究成果，例如，人脸识别、物体识别与分类等方面的性能已接近甚至超过人类视觉系统。因此，可以说计算机视觉当前发展已进入了一个新的阶段。

梳理与归纳现阶段计算机视觉的研究进展，不但有助于我们看清楚计算机视觉的研究现状，而且对我们下一步的研究会起到重要的指导性作用。遗憾的是，计算机视觉研究领域虽已有大量归纳和梳理研究进展的综述性文章，但对 2012 年以来计算机视觉研究进展进行综述的文献却较为少见。

为此，这篇报告试图综述近五年计算机视觉领域的研究进展。从视觉信息处理的不同需求层次，对计算机视觉研究前沿问题的探索进展进行归纳分析，并探讨未来发展趋势。主要文献来自于计算机视觉领域顶级会议（CVPR、ICCV、ECCV 等）和期刊（IEEE-TPAMI、IJCV等），以及机器学习领域的顶级会议（NIPS、ICML等）我们认为有代表性的工作。因学识有限和篇幅限制，难免有遗珠之憾，也希望此报告能为推动计算机视觉的研究发展有所贡献。

二、国内研究现状

大卫·马尔提出的视觉计算理论首次将视觉问题形式化为可计算的视觉信息处理问题，视觉计算理论也因此成为跨接计算机科学与认知神经科学的桥梁，并从计算角度将视觉信息处理分为初级、中级和高级三个阶段。本报告继续延续这一思路将现阶段的研究进展分成底层、中层和高层三个层次进行归纳，并对前沿热点问题的研究进展进行重点讨论。

（一）底层视觉计算

底层视觉计算模型的研究目标是对图像数据进行处理，形成类视觉皮层的底层局部表征，如几何特征、区域边界、物体轮廓和运动信息等，形成中、高层视觉计算的基础。

早期底层视觉研究工作中用到的大部分特征都是手工设计的，这些特征以人的先验知识为驱动，建立数学计算模型，然而自然界场景千变万化，很难手工设计出能模拟所有场景数学模型。2012 年以来，深度神经网络开始用于底层特征的学习［7，21，35］，得到了更具表征能力和鲁棒性的深度特征，并逐渐取代以往的手工设计特征的方法。下面我们以边缘检测和场景几何获取为例，简要分析底层视觉计算的发展趋势。

边缘检测的传统方法是运用Sobel滤波器、Candy滤波器等进行边缘提取，但是这些算法通常不能很好地处理复杂的场景，近年来研究者考虑是否可以用卷积神经网络［1-3］解决这一问题。其中，参考文献［3］将场景的多层级，多尺度的信息融合在一起，很好地解决了复杂场景图像的边缘提取问题。光流和立体匹配是从二维场景图像重构出三维场景结构的重要步骤，均涉及特征匹配问题［4-6］。然而，手工构造的特征易受视点、光照和尺度的影响，匹配的鲁棒性不尽如人意。参考文献［4］利用数据驱动的匹配方式，将视觉相似度和像素差异性融入同一个系统中，提高了匹配的准确性。

综上，利用深度神经网络能够挖掘出不同底层视觉线索的潜在规律，得到的特征表征能力与鲁棒性更强。但是，逐步提升的算法复杂度却成为新的瓶颈。如何将深度特征学习与手工特征的简洁和高效性有机结合是底层视觉计算研究中应予以重视的研究方向。

（二）中层视觉计算

中层视觉计算在底层特征上引入几何结构、时域对应等信息，搭建起底层视觉和高层视觉之间的桥梁。下面以显著性检测、目标分割、目标跟踪等问题为代表，分析中层视觉计算的主要研究进展。

显著性检测是基于生物的视觉注意力感知机制，通过全局对比度等特征检测图像中具有显著视觉特征的区域［8］。近年结合局部全局视觉线索，构造多层次、多上下文的模型［11-13］等方法有效地提升了中层视觉模型的性能。另外，部分研究进一步引入任务的先验知识以约束和引导显著性的计算过程［9，10］，使得算法更适应于特定视觉应用环境。

目标分割是指从包含目标的图像中剔除背景，传统思路将其视为能量优化问题，以图像局部区域为节点，通过构造局部区域项、平滑项等能量函数，借助优化算法寻求分割的最优配置。近期较多的研究以该框架为基础，如建立稠密连接的条件随机场［15］，提取深度神经网络特征构建能量函数等。另外，以混合智能为理论依据，充分利用交互信息实现机器学习和人类智能的融合从而提高分割精度也是目前的研究热点［16］。

目标跟踪通过在连续视频序列中对同一物体跟踪定位，得到其运动轨迹。相关滤波算法以其速度上巨大优势成为该领域的热点研究方向［17，20］。近几年，研究者尝试采用深度学习解决目标跟踪问题，相较于其他问题，目标跟踪的训练数据有限，参考文献［18，19］通过在非跟踪任务数据集上学习目标表示，测试时再由跟踪样本信息进行微调，实现由检测到跟踪的转化，突破标注少的局限性。

近年来，中层视觉计算模型研究越来越重视多层次视觉信息融合，尤其是高层语义信息。另外，随着端到端视觉学习系统的发展，实现采用整体性模型实现多任务多层次输出，不断弱化各视觉计算层次的区分是目前的研究趋势。

（三）高层视觉计算

高层视觉计算问题致力于获取能够直接被接受且理解的语义知识。近五年的研究方法以深度学习为主线，物体识别和场景分类、人脸识别等视觉任务的算法性能有极大提升，部分研究成果已经开始走出实验室，商业化应用初露端倪。

物体识别和场景分类是指对图像进行分析理解，给出其中的物体及场景类别。自2012 年以来，深度学习逐渐在大规模图像识别中取得了统治地位［7］。其中，残差神经网络（ResNet）［21］通过构建残差结构，使网络更易训练，较好地抑制了训练过程的退化问题，在ImageNet数据集上达到了超越人类的识别能力。在此基础上，针对目标识别需要进一步进行空间定位的问题，R-CNN首次提出候选区域和深度卷积网络结合的思想，成为随后目标识别任务的主流框架［22，23］。Faster R-CNN［23］进一步巧妙地利用锚点（anchor）思想解决候选区域的尺度问题，大幅缩短了提取目标候选区域的时间，取得了较好的效果。

人脸识别具有广阔的应用前景，目前几乎所有的人脸技术都以深度神经网络为基础。近期研究进展主要集中在如何优化网络结构和引入新的损失函数等［24-26］。综合来看，人脸识别性能的提升主要来自于更大的神经网络和海量的训练数据。人脸识别也是当前最有商业落地前景的技术，工业界的重视和资本的进入也进一步促进了人脸识别在安防和金融领域的推广和落地。

综合而言，高层视觉计算的输出更加接近于人类对周围环境的感知层次。但是，目前的方法性能极大地依赖于对训练数据的人工标注质量。因此，如何利用当前海量的无监督数据来突破对耗时耗力的标注过程的依赖，逐步成为高层视觉计算方法的研究热点。

（四）前沿问题

随着计算机视觉研究的不断推进，研究人员开始挑战更加困难的计算机视觉问题，例如，图像描述、事件推理、场景理解等。单纯从图像或视频出发很难解决更加复杂的图像理解任务，一个重要的趋势是多学科的融合，例如，融合自然语言处理领域的技术来完成图像描述的任务。图像描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题，其目标是翻译一幅图片为一段描述文字。目前主流框架为基于递归神经网络的编码器解码器结构［28-30］，其核心思想类似于自然语言机器翻译。但是，由于递归网络不易提取输入图像和文本的空间以及层次化约束关系，层次化的卷积神经网络以及启发自认知模型的注意力机制受到关注［31，33］。如何进一步从认知等多学科汲取知识，构建多模态多层次的描述模型是当前图像描述问题研究的重点。

事件推理目标是识别复杂视频中的事件类别并对其因果关系进行合理的推理和预测。与一般视频分析相比，其难点在于事件视频更加复杂，更加多样化，而最终目标也更具挑战性。不同于大规模图像识别任务，事件推理任务受限于训练数据的规模，还无法构建端到端的事件推理系统。目前主要使用图像深度网络作为视频的特征提取器［27，32］，利用多模态特征融合模型，并利用记忆网络的推理能力［32］，实现对事件的识别和推理认知。当前研究起源于视频的识别和检测，其方法并未充分考虑事件数据的复杂和多样性。如何利用视频数据丰富的时空关系以及事件之间的语义相关性，应是今后的关注重点。

场景理解的目的是计算机视觉系统通过分析处理自身所配置的传感器采集的环境感知数据，获得周围场景的几何 / 拓扑结构、组成要素（人、车及物体等）及其时空变化，并进行语义推理，形成行为决策与运动控制的时间、空间约束。近年来，场景理解已经从一个初期难以实现的目标成为目前几乎所有先进计算机视觉系统正在不断寻求新突破的重要研究方向。例如，底层的动态三维场景光流和静态空间栅格占有率被用来构建十字交叉口的动态道路拓扑［39］。利用社会 - 长短记忆网络（Social-LSTM）实现多个行人之间的状态联系建模，结合各自运动历史状态，决策出未来时间内的运动走向［40］。如何将历史观测和当前组成要素之间状态间联系结合起来进行场景的动态运动决策与推理是场景理解迈向更深层次的关键所在。

三、国内外发展比较

国内研究水平有了很大提高，与国际先进水平的差距在不断缩小，部分研究方向上实现了并跑甚至领跑。但从整体上来看，针对研究热点问题的顶尖研究成果的大多数仍然出自于国外研究团队，属于我国本土研究团队的原创性、开拓性工作较少。在底层视觉方面，国外大部分研究基于图像局部线索［1］或结合语义信息指导底层搜索［2］；南开大学的边缘提取工作直接对整幅图进行操作［3］，其方法对该领域具有相当的指导意义。而在场景几何重建、场景光流与运动估计方面，国内的研究工作较为欠缺，以KITTI 数据集为评测基准［37，38］的算法排名中，国内研究机构的研究成果比例极小。在中层视觉计算方面，国内研究机构在显著性检测领域均具国际一流的科研实力，但在基础理论研究方面仍少有建树。

从研究工作的进展趋势来看，目前中层视觉和高层视觉问题的边界越来越模糊，越来越多的工作引入语义等高层信息解决中层视觉任务［36］，如结合给定的物体类别语义信息，检测显著的行人、动物等目标［23］。目标跟踪方面，国内虽然起步较晚，但随着国家大量的资源投入和初创公司的兴起，国内研究实力也在逐步增强。在高层视觉计算方面，越来越多的优秀深度网络模型由国内机构与国外合作完成，例如，ResNet［21］、DenseNet［35］等极大推动图像识别研究进展的工作。另外，国内机构之间的合作和交流也进一步激活和带动的国内视觉领域的研究热度，并开始取得成效，例如，在 2016年ImageNet 大规模物体识别挑战赛中，国内的研究机构和视觉领域的创业公司分别包揽了全部项目的冠军，这充分说明该领域国内的研究已经接近甚至达到国际先进水平。

四、发展趋势与展望

（一）多学科领域知识交叉

多学科交叉在计算机视觉技术的发展中具有重要作用，从计算机视觉问题变成可计算问题以来，计算机视觉技术的发展涉及多种学科，主要有数学、物理学、光谱学、计算机学科、自动化学科、脑科学、神经心理学、认知心理学、行为心理学、生物科学等。例如，将注意力机制引入到计算机视觉领域，将知识图谱作为辅助信息进行复杂的计算机视觉任务分析。各种学科交叉下的计算机视觉技术研究仍是未来必然趋势和亟须解决的问题。

（二）多传感信息鲁棒融合

感知环境信息是计算机视觉发展的基础，目前主要依赖可见光视觉相机获取环境信息，然而可见光视觉相机易收到光照、阴影、天气等条件的干扰。为此，近年来，多传感信息融合已经成为环境感知的主要手段。如光谱（场）相机，深度相机（如 Kinect），激光、雷达、毫米波、GPS/IMU 等多种属性协同感知。从而利用多种信息的优点，在多传感协同感知下，提供更充分、更准确的场景感知。

（三）多维度视觉信息演化推理及预测

视觉信息主要以图像、视频的方式呈现，在计算机视觉技术分析中，往往需要分析信息的空间结构和发展变化。而如何得到更好的、更符合人眼感知的视觉逻辑演化关系是分析视觉信息载体的关键。目前大量的工作集中在对数据所表达信息的分析，而忽略了预测的重要性，如何对所感知目标的未来运动及表现意图做出尽量长时间的预测是计算机视觉技术更智慧化的重要体现。

（四）多视觉任务系统级有机集成

当前计算机视觉技术发展的一个重要趋势是不再依靠简单拼接单一的视觉任务来解决复杂问题，而是将多种任务融合在统一的智能载体联合完成。比如像检测、跟踪、识别等任务在无人驾驶车辆中需要同时进行，才能得到一个相对较好的场景评估。所以，未来的计算机视觉技术发展的重要趋势是如何将多种视觉问题有机结合起来，提供系统级的应用方案。

（五）更大规模数据集精准标注

计算机视觉从另一个侧面来讲属于数据科学。其中的算法、模型等性能的提升很大程度上依赖于标记精准的训练数据。自从 ImageNet 数据集公布以来，以深度学习为主要代表方法在计算机视觉的诸多问题方面取得了突飞猛进的成果。这得益于足够大的标注数据规模，从另一个方面来讲，更大数据规模代表更多的知识，可以更好地模拟人脑的学习机理［32］。所以构建超大规模的精准标注数据库势在必行，显然是未来计算机视觉研究的主要内容之一。

五、结论

当前不断激增的视觉数据处理需求，使得计算机视觉技术面临新的挑战。鉴于此，对于当前国内计算机视觉技术的发展到达了什么样的层次和阶段，本报告从视觉计算的不同层次展开阐述，分析了近五年的研究进展，并引出当前主要的两个前言探索问题。从发展现状来看，目前的计算机视觉技术研究已经逐渐趋向于更高层的视觉内容理解与分析，即更加逼近人的感知理解需求。此外，国内研究团队在基础理论及问题新颖性方面仍须不断努力。最后，本报告提出当前计算机视觉技术发展的几点潜在趋势，藉此希望为国内计算机视觉技术的发展提供绵薄之言。

参考文献

［1］ Ganin Y，Lempitsky V. N4-Fields：Neural Network Nearest Neighbor Fields for Image Transforms［M］// Proceedings of the Asia Conference on Computer Vision. 2014：536-551.

［2］Bertasius G，Shi J，Torresani L. Deepedge：A multi-scale bifurcated deep network for top-down contour detection［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015：4380-4389.

［3］ Liu Y，Cheng M M，Hu X，et al. Richer Convolutional Features for Edge Detection［J］．arXiv preprint arXiv： 2016，1612.02103.

［4］ Chen Z，Sun X，Wang L，et al. A deep visual correspondence embedding model for stereo matching costs［C］// Proceedings of the IEEE International Conference on Computer Vision. 2015：972-980.

［5］ Eigen D，Puhrsch C，Fergus R. Depth map prediction from a single image using a multi-scale deep network［C］// Proceedings of the Advances in Neural Information Processing Systems. 2014：2366-2374.

［6］Knöbelreiter P，Reinbacher C，Shekhovtsov A，et al. End-to-End Training of Hybrid CNN-CRF Models for Stereo［J］． arXiv preprint arXiv：2016，1611.10229.

［7］ Krizhevsky A，Sutskever I，Hinton G E. Imagenet classification with deep convolutional neural networks［C］// Advances in neural information processing systems. 2012：1097-1105.

［8］ Cheng M M，Mitra N J，Huang X，et al. Global contrast based salient region detection［J］．IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（3）：569-582.

［9］ Zhu W，Liang S，Wei Y，et al. Saliency optimization from robust background detection［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014：2814-2821.

［10］ Han J，Zhang D，Hu X，et al. Background prior-based salient object detection via deep reconstruction residual［J］． IEEE Transactions on Circuits and Systems for Video Technology，2015，25（8）：1309-1321.

［11］ Wang L，Lu H，Ruan X，et al. Deep networks for saliency detection via local estimation and global search［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015：3183-3192.

［12］ Zhao R，Ouyang W，Li H，et al. Saliency detection by multi-context deep learning［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015：1265-1274.

［13］ Liu N，Han J. Dhsnet：Deep hierarchical saliency network for salient object detection［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016：678-686.

［14］ Wang L，Wang L，Lu H，et al. Saliency Detection with Recurrent Fully Convolutional Networks［C］// Proceedings of the European Conference on Computer Vision. 2016：825-841.

［15］ Cheng M M，Prisacariu V A，Zheng S，et al. Densecut：Densely connected CRFs for realtime grabcut［C］// Proceedings of the Computer Graphics Forum. 2015，34（7）：193-201.

［16］ Lin D，Dai J，Jia J，et al. Scribblesup：Scribble-supervised convolutional networks for semantic segmentation［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016：3159-3167.

［17］ Li Y，Zhu J. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration［C］// Proceedings of the European Conference on Computer Vision. 2014：254-265.

［18］ Wang N，Yeung D Y. Learning a deep compact image representation for visual tracking［C］// Proceedings of the Advances in Neural Information Processing Systems. 2013：809-817.

［19］ Wang L，Ouyang W，Wang X，et al. Visual tracking with fully convolutional networks［C］// Proceedings of the IEEE International Conference on Computer Vision. 2015：3119-3127.

［20］ Ma C，Huang J B，Yang X，et al. Hierarchical Convolutional Features for Visual Tracking［C］// IEEE International Conference on Computer Vision. IEEE Computer Society，2015：3074-3082.

［21］ He K，Zhang X，Ren S，et al. Deep residual learning for image recognition［C］//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016：770-778.

［22］ He K，Zhang X，Ren S，et al. Spatial pyramid pooling in deep convolutional networks for visual recognition［J］． IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（9）：1904-1916.

［23］ Ren S，He K，Girshick R，et al. Faster R-CNN：Towards real-time object detection with region proposal networks［C］//Advances in Neural Information Processing systems. 2015：91-99.

［24］ Sun Y，Wang X，Tang X. Deep learning face representation from predicting 10，000 classes［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014：1891-1898.

［25］ Sun Y，Chen Y，Wang X，et al. Deep learning face representation by joint identification-verification［C］// Proceedings of the Advances in neural information processing systems. 2014：1988-1996.

［26］ Sun Y，Wang X，Tang X. Deeply learned face representations are sparse，selective，and robust［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015：2892-2900.

［27］ Wu Z，Jiang Y G，Wang X，et al. Multi-stream multi-class fusion of deep networks for video classification［C］// Proceedings of the 2016 ACM on Multimedia Conference. ACM，2016：791-800.

［28］ Vinyals O，Toshev A，Bengio S，et al. Show and tell：A neural image caption generator［C］// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society，2015：3156-3164.

［29］ Mao J，Xu W，Yang Y，et al. Deep Captioning with Multimodal Recurrent Neural Networks（m-RNN）［J］． ICLR，2014.

［30］ Xu K，Ba J，Kiros R，et al. Show，Attend and Tell：Neural Image Caption Generation with Visual Attention［J］． Computer Science，2015：2048-2057.

［31］ Vaswani，Ashish，et al，Attention Is All You Need［C］// arXiv preprint arXiv：1706.03762，2017.

［32］ Gao Z，Hua G，Zhang D，et al. ER3：A Unified Framework for Event Retrieval，Recognition and Recounting［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

［33］ Gu J，Wang G，Cai J，et al. An Empirical Study of Language CNN for Image Captioning［C］// Proceedings of the ICCV. 2017

［34］ Sun，Chen，Shrivastava，et al. Revisiting Unreasonable Effectiveness of Data in Deep Learning Era［J］．arXiv preprint arXiv：1707.02968，2017.

［35］ Huang G，Liu Z，Weinberger K Q，et al. Densely Connected Convolutional Networks［J］．Proceedings of the IEEE conference on computer vision and pattern recognition .2017.

［36］ Zhu J，Qiu Y，Zhang R，et al. Top-down saliency detection via contextual pooling［J］．Journal of Signal Processing Systems，2014，74（1）：33-46.

［37］ Andreas G，Philip L，Raquel U. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

［38］ Menze M，Geiger A. Object scene flow for autonomous vehicles［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015：3061-3070.

［39］ Geiger A，Lauer M，Wojek C，et al.“3d traffic scene understanding from movable platforms［J］． IEEE Transactions on Pattern Analysis and Machine Intelligence，Vol. 36，No. 5，1012-1025，2014.

［40］ Alahi A，Goel K，Ramanathan V，et al. Social LSTM：Human Trajectory Prediction in Crowded Spaces［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016：961-971.

来源：中国自动化学会

往期文章推荐