【2021年度发展报告】面向复杂场景的人物视觉理解技术

会员服务 ·

【2021年度发展报告】面向复杂场景的人物视觉理解技术

2022 年 9 月 26 日 中国图象图形学学会CSIG

中国图象图形学学会和中国图象图形学报联合重磅发布2021年“图像图形学发展年度报告”综述专刊，学会15个专委会倾力之作15篇学科重要方向综述论文，梳理学科发展脉络全面展示研究现状、前沿、热点、趋势。

面向复杂场景的人物视觉理解技术能够提升社会智能化协作效率，加速社会治理智能化进程，并在服务人类社会的经济活动、建设智慧城市等方面展现出巨大活力，具有重大的社会效益和经济价值。

今日推荐综述专刊中“面向复杂场景的人物视觉理解技术”，该文由 中国图象图形学学会动画与数字娱乐专业委员会 组织撰写。‍‍‍‍‍‍‍‍

论文信息

题目：面向复杂场景的人物视觉理解技术

作者：马利庄, 吴飞, 毛启容, 王鹏杰, 陈玉珑

第一作者单位：上海交通大学

关键词：复杂场景; 视觉理解; 人物识别; 深度学习; 行为分析

引用格式：马利庄, 吴飞, 毛启容, 王鹏杰, 陈玉珑. 2022. 面向复杂场景的人物视觉理解技术. 中国图象图形学报, 27(6): 1723-1742.) [DOI: 10.11834/jig.220157]

点击文末“阅读原文”查看论文全文

论文看点

本文重点围绕复杂场景实时人物识别、个体行为分析与群体交互理解、视觉语音情感识别与合成，综合利用知识与先验的机器学习模式，深入阐述面向复杂场景的任务视觉理解技术及应用，汇总国内外的相关成果，并对该领域的前沿进展进行总结与展望。

1）复杂场景实时人物识别主要包括人物的身份检索与核实、人群跨时空流动的跟踪溯源以及大规模复杂场景实时人物识别等，是对复杂场景中人类活动进行视觉理解的重要基础。人物识别的挑战主要在于面具遮挡攻击等多样性攻击，会影响身份识别安全；时空信息跨度大，会影响跨年龄人脸识别精度(特别是千万级规模的检索)；场景复杂多变、要求系统的高鲁棒性和适应多样性环境等问题，需要研究高安全的远程核身、超精准的人脸识别技术，以及高效的行为分析和场景语义理解等技术。

2）对个体行为进行分析，并理解群体交互规则是复杂场景人物视觉领域的关键组成部分。其中，个体行为分析主要包括视频行人重识别、视频动作识别，群体交互理解主要包括视频问答、视频对话。视频网络可记录个体/群体在多源摄像机中的影像信息，因此多相机环境下的群体分割、群体跟踪、群体行为分析和异常行为检测等研究是人物行为理解的关键，已经成为当前国际国内的热点学术问题。但是，真实场景中多相机所记录的个体行为/群体交互异常复杂，对真实场景结构、个体行为和群体交互进行联合建模来提高多相机、多目标行为理解性能，仍然具有极大的挑战性。

3）视频网络中个体和群体行为理解主要依赖于摄像机所捕获的场景、个体和群体等视觉信息。然而在复杂场景下，个体行为分析和群体交互理解往往需要视觉信息以外的人类知识与先验常识。特别是，随着互联网中用户产生数据日渐增多，如何利用众包数据来提升视觉计算性能也吸引了众多学者，以此产生了视觉问答与对话和视觉语言导航两个重点任务。这类任务对众包数据中内隐知识进行辨识，在个体行为分析和群体交互理解中形成综合利用知识与先验的数据驱动机器学习模式，建立数据驱动和知识指导的视觉计算新方法，具有广阔的应用前景。

4）人物表情可以理解为人的脸部微动作，表情识别能够实现人物的情感捕捉与理解，从而更好地支持人机协同的学习模式，是人物视觉理解技术的重要研究方向。情感计算在人工智能与人机交互相关研究中的地位日益凸显，目前，国内外已经在人脸表情识别、表情合成等方面取得了初步成果。

趋势和展望

在面向复杂场景的人物视觉理解技术及应用的相关研究中，大规模场景实时人物识别、个体行为分析与群体交互理解、视觉语音情感识别与合成、知识引导和数据驱动是实现数字化、智能化生活与信息化服务不可或缺的重要环节，对于维护社会治理与公共安全、提升产业效率、促进智慧城市建设具有重要作用。其中，人脸检索和分析与大规模场景实时人物识别是面向公共安全、互联网金融和社交网络等领域的关键基础问题，近年来取得极大进展，但仍存在着具有面具遮挡攻击等多样性，影响身份识别安全；时空信息跨度大，影响跨年龄人脸识别精度；场景复杂多变，要求系统的高鲁棒性、适应多样性环境等问题。为进一步进行技术推广、促进产业升级，仍需要针对训练数据稀缺、深度学习难解释以及复杂环境存在各种非受控因素等问题进行深入研究，从而高效和鲁棒地实现人脸检索和分析与大规模场景实时人物识别。

在个体行为分析与群体交互理解方面，虽然近几年视频行人重识别取得了重大发展，但还是面临着诸多挑战。例如在真实场景下，行人重识别会遇到跨摄像头导致的姿态变化、视角变化等问题，导致行人外观的巨大变化；此外，视频行人重识别方法虽然在一定程度上解决了部分遮挡的问题，但是丢弃遮挡图像的解决思路并不理想；光照变化会进一步降低行人重识别模型的性能。虽然目前动作识别已经取得了长足的发展，但距离人类识别水平仍有很大的差距，在实际应用中也面临着各种复杂的问题。其中，训练视频模型所需的计算资源远超图像，使得视频模型的训练时长和训练所需的硬件资源开销巨大，导致模型的验证和迭代速度减慢。因此，将数据驱动机器学习和知识引导逻辑推理方法进行结合，研究泛化能力更强的算法和框架是未来重要的研究方向。此外，数据集规模制约了动作识别领域的发展，仍需要进一步完善。

与此同时，人工智能的发展带动着情感计算逐步达到更高水平，然而同其他高端科技一样，在到达一定阶段后，情感计算也迎来了技术的“瓶颈期”。比如，在表情识别中，真实世界人脸表情数据标注不足、表情数据类别不平衡、数据偏差大以及标注不一致等问题成为制约表情识别的主要因素。针对以上问题，未来发展除了要讨论方法的精度也要关注方法的耗时以及存储消耗。如何引入新技术解决小样本和不平衡分类问题、如何有效利用多类表情模型协同工作以及如何将表情信息与其他模态信息结合到一个高层框架中提供互补信息来增强模型的鲁棒性是表情识别领域未来的重点研究方向；如何构建情感表现力更丰富、情感控制度量更标准的数据库，如何利用深度学习方法(如少样本甚至单样本、零样本学习方法)来缓解可靠数据问题，如何在端到端的神经网络中融合更多的个性化、场景化的信息以合成更拟人化的情感信息是人脸表情合成领域的重要研究方向。

综上所述，面向复杂场景的人物视觉理解技术及应用在服务人类社会的经济活动、建设智慧城市等方面具有重大意义。期待人物视觉理解技术在人物—行为—场景三要素关联的视觉理解方面取得进展，同时在标准数据建设、模型计算资源以及模型鲁棒可解释性方面进一步完善。

【作者简介】