【模式国重】计算机视觉未来重要研究问题

会员服务 ·

【模式国重】计算机视觉未来重要研究问题

2020 年 10 月 16 日 专知

模式识别国家重点实验室

关注

引言

深度学习以及新一轮人工智能发展对计算机视觉的发展起到了极大的推动作用，计算机视觉的应用不断地深入到各行各业，对马尔视觉理论的争议之处有了更明确的解析，也出现了不局限于马尔视觉理论框架下的新方法。计算机视觉与认知神经科学、应用数学和统计学等学科的交叉，与各种硬件的融合，受各种应用的驱动，并作为人工智能中的重要分支，未来将迎来更为旺盛的发展时期。新方法新需求大量涌现，未来会不会形成更加宏大的新的计算机视觉理论框架呢？在过去的几十年里，还从来没有一个体系能够代替马尔视觉理论框架的中心主导地位。新的框架是基于马尔视觉理论框架的修改补充，还是全新的框架体系？早在2010年，马尔的同事MIT教授Tomaso Poggio就对马尔视觉理论框架进行了补充，“I am not sure that Marr would agree, but I am tempted to add learning as the very top level of understanding, above the computational level. Only then may we be able to build intelligent machines that could learn to see—and think—without the need to be programmed to do it.”而就目前的计算机视觉发展来看，机器学习不仅仅用在了马尔视觉理论的最高层之上，而且也已经渗入到了其它各层的计算之中。计算机视觉作为人工智能的分支领域之一，其理论框架也必然是在随着人工智能的软硬件发展而不断发展和逐渐完善中，而这样的发展边界目前还不能被完全预测。但在最近若干年内，在计算机视觉未来的发展趋势方面，我们分析提出了6个有价值的研究方向：新型成像条件下的视觉研究、生物启发的计算机视觉研究、多传感器融合的三维视觉研究、高动态复杂场景下的视觉场景理解、小样本目标识别与理解、复杂行为语义理解。由于人工智能发展受到高度重视，各行各业对计算机视觉的需求旺盛，对新型成像设备的需求旺盛，未来新型成像条件下的视觉研究仍然是一个吸引很多关注的方向。计算机视觉是模拟人或生物视觉功能的学科，与人工智能模拟人或生物的智能意义相通，而研究人脑的视觉智能是神秘难测的系统，其规律至今尚不能完全揭示，未来生物启发的计算机视觉研究必定是有重大价值和意义的方向。由于目前计算机视觉的鲁棒性不足，2D视觉逐渐向3D扩展，未来多传感器融合的三维视觉研究在实际的应用中将会越来越得到重视。高动态复杂场景下的视觉场景理解是计算机视觉高层任务与应用结合必定要解决的问题，是无人驾驶、机器人中不可避免的问题，因此这也是未来的重要方向。小标注的样本或者弱监督目标识别与理解和复杂行为语义理解是计算机视觉内在的挑战性难题，也将吸引众多研究者的关注。

1. 新型成像条件下的视觉研究

以计算摄像学为典型代表的新型成像技术，使研究者能够从重构的高维高分辨率光信号中恢复出目标场景本质信息，包括几何、材质、运动以及相互作用等，解决目前计算机视觉研究中普遍存在的从三维场景到二维图像信息缺失的病态问题，使机器对物理空间和客观世界有更全面的感知和理解。最近几年，新型计算成像设备不断涌现，比如光场相机，event相机，深度相机，红外相机，TOF相机，高速相机，十亿像素相机、偏振相机等，这些相机有着广泛的应用，在某些方面有着传统相机所没有的优势。比如光场相机，在低光及影像高速移动的情况下，仍能准确对焦拍出清晰照片。Event相机检测到运动，就会在每个像素的基础上以非常高的刷新率呈现出来。由这些相机产生的图像数据与传统的图像有着差异，是对空间中光场不同的部分采样，在这些图像下的视觉理论算法研究，将是未来的新方向。这些新型图像数据的处理，需要与该相机所执行的任务密切相关，需要面向一定的应用来探索其理论与算法，可以在某些方面来解决传统相机下所不能很好解决的问题。

未来，计算成像学的研究仍然会在硬件与计算机视觉算法方面得到越来越多的重视：

1）新型计算成像设备与新型镜头的硬件研究：各种各样的多视系统和相机阵列在工业界得到了较快的发展，代表了计算成像设备研发的趋势。借鉴生物视觉系统的神经网络结构和信息加工机理，视达相机和脉冲神经网络结合，处理速度不再受视频帧率的约束。光场相机等计算成像仍受限于空间分辨率低等问题，未来计算成像学的发展将不会完全依赖于成像器件的发展，多个低性能的感光器件组成阵列，辅之以高水平的处理算法和计算系统，可以得到高水平的成像效果。另外，未来随着纳米技术、高精加工技术的发展，未来的光学镜头可能被取代，直接在芯片上附加一层薄膜就可以成像，或者液态镜头等新式成像器件或者设备；新型成像器件对光谱和时间等维度的高密度采样，将为视觉研究提供崭新的数据形态和解题思路。

2）在新型设备和镜头下的计算机视觉算法研究：未来的成像设备输出的将不仅仅再是二维平面图像，而是可以输出光场数据或者三维信息，这些数据和信息可以直接连接到3D显示器或者打印机等设备，直接输出被摄场景的三维立体显示或者打印的实体，这就将直接掀起VR/AR等领域的变革性发展，模式识别、计算机视觉等学科研究的对象，也将从二维图像向记录高维高分辨率光信号的介质或者载体转移。

3）软硬一体化多新型成像融合研究：人工智能的迅猛发展带动了计算机视觉的新一轮发展，各行各业对计算机视觉的需求有增无减，各种场景下对特定成像仪器的需求难以满足，将催生更多不同相机的融合和视觉任务的研究。红外热成像仪不仅在工业领域具有广泛的应用价值，在防疫公共安全也有着重要的应用。红外图像与可见光图像的硬件同步、软件融合将对问题的解决更加容易。深度相机与二维图像的融合将对形状、表观的识别更加容易可行。

2. 生物启发的计算机视觉研究

计算机视觉是应用性很强的学科。虽然在近几十年内计算机视觉已取得了很大成绩,并且成功地应用到许多领域中，但是,对于复杂的问题，计算机视觉系统的能力还远远达不到人类完成的类似任务的能力。生物视觉系统是人类已知的最为强大和完善的视觉系统，其结构特点和运行机制对计算机视觉模型有重要的启发意义。生物启发的计算机视觉研究如何将人脑视觉通路的结构、功能、机制引入到计算机视觉的建模和学习中来，求解当前计算机视觉研究中的难题。从模仿生物的角度出发，探索生物学启发的计算机视觉已经取得很多成功案例。例如Gabor滤波器，正式模拟了初级视皮层的细胞的信息编码方式，在计算机视觉研究初期的经典成功案例。生物启发的计算机视觉将是一个重要的方向，它是计算机视觉与神经科学的交叉学科，在这方面理论的突破，可使得计算机视觉与生物的智能更加靠近。目前，深度神经网络借鉴了大脑层次化的信息抽取过程，成为这一轮人工智能/模式识别发展的发动机。

生物启发的计算机视觉研究面临的问题包括两个方面，第一，人脑是庞大、高效、鲁棒的生物神经网络，拥有约10e10神经元，以及约10e13突触连接。当前计算机在计算规模、功耗能效、鲁棒可靠方面很难模拟大脑，很难支撑生物启发的计算机视觉研究。第二，当前脑科学对人脑视觉通路机理的发现仍然不足，特别是高层视觉通路的工作机理和神经证据极其有限，制约了生物启发的计算机视觉研究深入发展。从生物视觉机制中寻求启发，发展新型视觉计算模型，已经呈现出一定的潜力。例如对注意、记忆等大脑认知机制建模，能够显著提升深度神经网络求解视觉问题的性能。然而总体上这些研究尚处于较为零散，不成体系的探索中，尚未形成具有共识性的科学问题和研究倾向。但从宏观而言，将生物启发的计算机视觉和脑科学中视觉通路的研究协同起来，同时从计算机视觉结构/功能建模和脑科学机制理解两个方面共同推进，发现具有共通性的结构、功能和机制，推动两个领域协同发展，将很可能是生物启发的计算机视觉未来发展的总体思路。

3. 多传感器融合的三维视觉研究

基于图像的三维重建和视觉定位是计算机视觉尤其是几何视觉领域的核心研究问题。图像传感器具有分辨率高、成本低、采集效率高、包含丰富语义信息等优势，但图像三维重建和视觉定位算法的精度很大程度上来源于底层图像特征提取和匹配的精度。因此，当场景中存在弱纹理或重复纹理区域时，底层特征提取和匹配的精度会显著降低，进而导致三维重建和视觉定位结果中出现错误、缺失、漂移等问题。近年来，随着传感器技术的发展，结构光、TOF、LIDAR、IMU等主动传感器日益小型化和低成本化，因此发挥各种传感器的优势，融合图像和其他主动传感器进行三维重建和视觉定位是三维视觉领域未来的一个重要发展方向。

相比于图像传感器，结构光、TOF、LIDAR等主动设备不易受到纹理、光照、天气等因素影响，惯导设备IMU可以提供较为可靠的空间朝向和运动信息，这些传感器的综合使用可以有效避免图像底层信息不可靠和不稳定带来的问题。另一方面，图像传感器可以提供丰富的场景细节信息和语义信息，能够有效补充主动传感设备在这方面的不足，并且降低对高成本主动传感设备的依赖。因此，多传感器融合的三维重建和视觉定位是在保证成本可控的前提下，提升算法鲁棒性和精度的有效手段。

现有的多传感器融合方法大多建立在传感器严格同步，且相对位姿已预先标定的前提下。但由于相机、LIDAR、IMU等传感器的数据采集速率差异很大，很难在硬件层面做到严格的数据同步。此外，不同模态传感器的相对位姿标定通常也比较复杂的，且标定精度通常难以保证。因此，无论从实际应用需求出发，还从是通用算法框架的角度考虑，多传感器融合三维重建和视觉定位都需要研究传感器非同步和无标定情况下的鲁棒计算方法，构造统一的计算框架对多源信息进行有效融合。这一框架的构建主要面临三方面挑战：一是如何构造多模传感数据的特征级对应，实现不同模态传感器之间的数据关联；二是如何将图像重投影误差、三维点空间配准误差、传感器位姿信息等纳入统一优化函数，实现多传感器联合内外参数优化；三是如何处理不同传感器固有的误差、外点、缺失等问题，实现三维场景结构的完整准确计算。

4. 高动态复杂场景下的视觉场景理解

视觉场景理解是计算机视觉中的一个综合任务，是机器智能的重要体现。视觉场景理解包括对物体的分割、检测、分类、学习、定位、跟踪、对环境结构的重建、物体的形状恢复、各种物体之间的方位关系、运动趋势、行为分析等等。当场景中包含高动态的复杂情景时，比如大街上，拥挤的人群、车辆、互相遮挡等等；再比如，高动态的光照变化，早、中、晚的光照发生很大的变化，视觉的表观将发生非常大的变化；以及季节的变化，春、夏、秋、冬的同一场景也各不相同。这些将对场景理解造成很大的挑战。未来，对这些高动态复杂场景下的视觉场景理解的研究将是一个非常有价值的方向的趋势。

静止场景下的视觉场景理解已经有很多工作。为高动态复杂场景下的目标分割、语义理解、形状位置理解等打下了坚实的基础。但是在高动态、遮挡、光照巨变等复杂场景下，还不能直接使用。在目标分割方面，未来问题主要是侧重研究视频目标分割，动态视频中的目标分割才刚刚起步。与图像中只关注表观信息不同，视频目标通常还包含比较复杂的运动模式，其中涉及的运动幅度、方向、速度等因素都会对分割结果产生较大影响。现有的相关深度模型的参数量比较大且运行时间较长，如何研发轻量化模型部署在嵌入式系统或者加速其测试过程具有很大挑战。在对场景的语义、形状位置的理解方面，在遮挡、光照巨变等情形下，可考虑三维重建下进行。研究高动态场景造成的模糊、复杂场景遮挡、光照巨变等条件下的语义识别，形状计算、位置姿态估计等可考虑建立知识库的方式进行。同时，这些复杂的任务理解，可以通过采用专用的新型相机来进行突破和解决。

在复杂的场景理解中，往往具有很大的遮挡，而采用多摄像机，将会减轻遮挡造成的信息损失，多种同质相机的使用或者不同质相机的使用，将会对应用的具体任务带来很大的便利。同时，多摄像机的使用将有助于三维点云的重建。在三维点云上的分割、识别等是目前的一个研究热点，也是无人驾驶和机器人中的重要研究任务。

5. 小样本目标识别与理解

深度学习已经广泛应用于各个领域，而且在不断刷新各类问题的最好结果。例如在目标识别问题上，区分CIFAR10数据库上10类目标的准确率目前可以轻松做到95%以上。然而，深度学习是一种需要大规模训练样本的技术，也只有这样才能发挥其最佳性能。可是在现实应用中，很多问题并没有那么多标注数据，并且获取标注数据的成本也非常大。例如在医疗领域，需要有专业知识的医生来标注病灶位置；在工业领域，需要人工在不同光照强度下识别产品的瑕疵等。此外，目前的深度学习模型更多是利用其复杂网络结构来拟合输入样本到输出标签的非线性映射，但是对于目标内容的智能理解还相对薄弱，包括物体的形状、角度、大小等。因此，如何在小样本情况下更加有效地训练深度学习模型，进而使得模型在目标识别地基础上具备一定的理解能力，是一个重要的研究课题和方向。

研究小样本的目标识别与理解在理论和应用方面都具有重要意义。在理论层面，需要分析深度模型在大样本情况下能够获得优异性能的根本原因并加以解析，以一种可解释的方式来选择部分代表性或者关键样本进行学习，最终达到与大数据量可比较的性能。这方向的研究也有助于推动深度学习原理性解释或者理论研究方面的发展。在应用上，有助于将深度学习模型从大样本应用场景进一步推广到更多小样本场景下，扩大深度学习的应用范围。此外，小样本学习也能够缩小模型训练所需要的时间以及数据存储空间。

实现小样本目标识别与理解的难点在于深度模型建模和学习策略的限制。这是因为目前深度学习模型本质上还只是一个非常复杂的非线性映射，因此他需要通过大量成对的样本-标签数据作为映射的输入和输出来拟合该映射所包含的大量参数。事实上，我们可以参考人类小样本学习的策略来改进现有的模型建模和学习策略。当前深度模型只是粗略模拟了人脑神经元结构而并没有考虑更加高级的认知机制例如注意、记忆、推理等，这些建立在神经元之上的高阶认知机制能够实现样本信息的过滤、提取、存储、复用、总结等，进而能够实现人类小样本学习能力。在具体操作方面，可以首先从生物学领域调研人类能够进行小样本学习的机理，然后利用计算机工具来进行计算建模并交叉验证。此外，缓解小样本目标识别与理解的另外一种思路是尝试让现有模型对于目标时空结构具备更准确的理解和认识。人类的学习可以仅凭少量的样本就能迅速、准确把握目标时空结构的本质和共性，并具有很强的泛化能力。但是目前的深度学习模型只能依靠大量样本，以归纳试错、排除纠正、反复迭代的方式来盲目、被动、低效地对目标结构进行学习。因此，将目标时空结构的先验知识融入深度学习模型之中，或许可以使得对训练样本的需求数减少。此外，最近出现很多关于样本增广学习和样本生成的工作，在一定程度上也可以缓解小样本问题。

6. 复杂行为语义理解

人体行为根据复杂程度从简单到复杂，可以分为动作motion、行为action、activity、behavior及事件event。底层的动作识别相对简单，近十多年行为action识别快速发展，研究重点已从受控场景下的简单小样本数据库的行为识别，转变到复杂现实场景下的大数据库的复杂行为语义理解。复杂行为语义理解要解决的问题是根据来自非限定环境下的传感器（摄像机）的视频数据，通过视觉信息的处理和分析，识别人体的动作，并在识别视频中背景、物体等其他信息的辅助下，理解人体复杂行为的目的、所传递的语义信息。复杂行为可能涉及到多个动作、人体与人体/物体/环境等的交互，有些行为侧重状态、有些侧重过程，并且类内变化大、多样性强，只利用底层特征来判断会产生很大误差，需要进行高层建模和推理。因此，复杂行为的语义理解是一个具有挑战性的问题。

由于视频数据本身的复杂性、行为和场景的多样性以及深度学习网络模型的计算复杂度高等问题，基于深度学习的复杂行为理解方法在实际应用中的效果并不理想，与自然场景中快速准确识别任意人体行为的目标还有很大的差距。对于很多复杂行为、特别是异常行为，通过增加训练样本很难覆盖行为的多样性，直接利用深度神经网络进行端到端的识别也会因样本过少引发过拟合问题而难以有良好的性能，针对这些问题，将复杂高层行为语义理解任务进行结构基元分解和交互关系分析将是一种重要的研究途径。具体来说，首先将复杂行为按一定规则拆分为结构基元，提取判别性信息，有效去除视频中的噪声和冗余信息；然后通过基元的识别及基元之间的相互作用，如时序建模、时空关系图建模等对基元组进行分析和识别；进一步在高层可结合外部语义模型、先验知识等进行复杂行为的语义理解，增强复杂行为分析的可解释性和语义层理解。特别是随着近几年基于深度网络模型在视觉底层、中层任务的快速发展，例如目标检测、目标识别、人体检测等都取得了较好的结果，为复杂行为进行结构基元的拆分打下了基础，根据不同的情况可以有效提取复杂行为视频中的关键目标基元、关键人体姿态基元、语义基元、甚至中层特征基元等进行分析。另外，随着深度传感器的发展，可以获取到越来越多的多模态视频数据包括RGB、depth、skeleton等，这些不同模态的数据各有优缺点，可以根据任务及不同行为的特点，充分利用或融合各种模态的数据，以提高复杂行为的语义理解的性能。

[模式识别国家重点实验室允许非商业用途的转载。转载时应保证内容与原文一致，声明“本文得到模式识别国家重点实验室（公众号: 模式识别国家重点实验室）授权发布”，并添加原文链接。]