大规模图像和视频数据集是驱动计算机视觉算法发展的核心要素。面向计算机视觉任务,构建大规模图像和视频数据集是一项重要但复杂的任务。基于生成对抗网络和扩散模型等数据生成方法可以可控的生成大规模、多样性的图像和视频数据,有效替代或弥补真实图像和视频数据集,为计算机视觉技术领域的发展提供了新的动力。本综述论文在对面向计算机视觉的图像和视频数据生成与应用背景简介的基础上,首先从以几何变换等为代表的传统数据增广和生成、以虚拟引擎和神经辐射场等为代表的基于三维渲染的数据生成方法、以生成对抗网络和扩散模型等为代表的基于深度生成模型的生成方法等三方面系统调研了典型的图像和视频数据生成技术与模型;其次,梳理了典型的图像和视频数据生成技术与模型在图像增强、目标检测跟踪与姿态动作识别等个体分析、基于图像和视频的生物特征识别、人员计数与人群行为分析等群体行为分析、自动驾驶、视频生成、具身智能等典型计算机视觉相关任务中的应用;最后分析了面向计算机视觉的数据生成与应用中存在的问题,并展望了未来发展趋势,以期促进图像和视频数据生成及计算机视觉技术的发展。 面向计算机视觉的数据生成与应用研究进展
引用格式:马愈卓, 张永飞, 贾伟, 刘家瑛, 甘甜, 杨文瀚, 卓君宝, 刘武, 马惠敏. 面向计算机视觉的数据生成与应用研究进展[J/OL]. 中国图象图形学报, 2025(6),1-81 DOI: 10.11834/jig.250085
阅读全文:
https://www.cjig.cn/zh/article/doi/10.11834/jig.250085/