基于视频数据的深度预测学习(以下简称“深度预测学习”)属于深度学习、计算机视觉和强化学习的交叉融合研究方向,是气象预报、自动驾驶、机器人视觉控制等场景下智能预测与决策系统的关键组成部分,在近年来成为机器学习的热点研究领域.深度预测学习遵从自监督学习范式,从无标签的视频数据中挖掘自身的监督信息,学习其潜在的时空模式表达.本文对基于深度学习的视频预测现有研究成果进行了详细综述.首先,归纳了深度预测学习的研究范畴和交叉应用领域.其次,总结了视频预测研究中常用的数据集和评价指标.而后,从基于观测空间的视频预测、基于状态空间的视频预测、有模型的视觉决策三个角度,分类对比了当前主流的深度预测学习模型.最后,本文分析了深度预测学习领域的热点问题,并对研究趋势进行了展望.
近年来,随着移动互联网、智能安防监控、时空数据采集与传感器网络等技术的迅猛发展,各行业中的视频数据体量呈指数级增长.运用深度学习方法对海量视频数据进行建模,在无须额外人工标注的情况下理解其时空结构特性,对气象预报、自动驾驶、机器人视觉控制等若干场景下智能预测与决策系统具有重要意义,这使得基于无标签视频数据的深度预测学习(以下简称“深度预测学习”)成了近年来一个备受关注的研究领域.预测学习的交叉应用场景众多,本文依照近年来国际学术界的主流研究成果,重点讨论其在计算机视觉和视觉决策场景下的具体内涵.
首先,在计算机视觉的应用范畴下,预测学习的核心任务是指,基于一段连续的视频历史观测,预测其在未来一段时间范围内的变化.给定一个帧视频序列
,预测随后一段帧视频序列
.利用深度学习模型,刻画观测空间中历史数据与未来数据之间确定性的映射关系,从而实现对未来时空变化趋势的高质量、精细化预测,已被成功应用于多种时空大数据平台中,其中包含短时临近强对流天气预报[1]、城市交通状况预测[2~4]等典型交叉应用场景.例如在气象短临预报中,需要根据前一时段内的雷达回波影像序列预测出未来0~2 h内每间隔6 min的雷达回波影像.在图1所展示的例子中,由清华大学团队主导研发的“新一代灾害性天气短时临近预报业务平台”首次将深度预测学习方法应用于中央气象台天气预报业务系统,表现出了超越传统数值模型与光流外插模型的预报水平,大幅提升了我国短临灾害性天气精细化预报能力,证明了深度预测学习具有广阔的交叉领域应用前景与重要的科学研究价值. 图1 图1 深度预测学习在气象预报领域的应用示例,图中所示为从过去一小时雷达回波历史观测中预测到的未来一小时雷达回波.
此外,在许多基于时空观测信号的智慧决策系统中,视频预测模型也有着广阔的应用前景和商用价值.此类深度预测学习方法主要应用于机器人视觉决策任务[5~8],其具体问题定义为给定帧视频序列
,以及机器人未来可能选取的动作序列
,以视频帧
的形式,预测在相应未来时刻执行对应动作所可能产生的后果.此类预测模型的一种典型的应用场景是部分可见的马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP).在该问题中,场景的状态信息是不完全可知的,即视觉观测数据无法准确反应全部的物理机理,一些近期研究工作利用深度预测学习方法,在隐状态空间中融合机器人的动作信息与隐状态时空深度表征,刻画动作、状态、环境三者之间的动态关系.显然,提升预测模型的精度,可以有效改善下游视觉控制与决策任务的执行效果. 从交叉应用场景看预测学习的本质,视频数据作为一种典型的具有网格化空间结构的高维时间序列,其最大特点是在时间上具有长时非平稳趋势与非确定性趋势,同时在单一时刻又具有高维空间相关性(例如图1中的雷达回波影像).传统的机器学习方法大多将时空数据当作多组单变量时间序列进行独立建模,其最大问题是特征学习能力不足,难以捕获空间相关性与非线性时空动态,故而难以形成长时、精细化的预测.深度预测学习遵循自监督学习的训练范式,不需要额外的标注信息,利用上述时空数据特性实现自监督训练,在无标签情况下建模数据中紧耦合的时间与空间相关性,从复杂、海量、高维、非线性的时空数据中挖掘重要的空间结构,并刻画其随时间的动态变化.预测学习模型与面向视频数据的生成模型不同.后者更关注生成数据的分布与真实数据分布的统计差异,而不需要严格保证生成结果相对观测数据的合理性;而前者相当于集成了因果推断模型和条件生成模型,不仅需要关注于观测空间中的生成质量,而且要尽可能地从历史观测中推断时空状态信息,因此需要更强的特征提取能力.在本文的后续讨论中,我们据此将主流的视频预测网络按照在观测空间或状态空间中的建模时空动态进行归纳对比.具体分类方式如图2所示. 图2 图2 深度预测学习主流方法的谱系图。
本文第2节将归纳观测空间中的视频预测模型,主要包含基于卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Networks,RNN)的若干神经网络架构.第3节将总结基于语义状态空间或隐状态空间的深度预测网络,探究低维状态空间中的时空特征表达与解耦方法,以及基于此的长时预测方法和不确定性预测方法.第4节将归纳基于深度预测模型的视觉决策前沿方法,讨论如何结合预测学习提高交互环境中控制和决策水平.第5节将介绍该研究领域内的典型数据集和模型评价指标.最后,第6节将讨论深度预测学习的开放问题与未来发展趋势.