对于视频理解任务而言,多种模态的输入数据往往会携带大量的冗余信息,除了普通的RGB帧数据,视频多模态分析还会用到音频、光流和深度图等模态的数据,但是对于某些时刻,其他模态的数据不论是数据获取还是前向传播都会有更高的计算性能要求,这对于一些即时的多模态应用是不合理的。
基于此,本文设计了一种自适应的多模态学习框架对一段视频的不同片段选取最为合适的模态数据作为输入,在保证识别精度的同时,获得了较为明显的计算量节省效果。 本文的整体框架包含了一个轻量的策略级网络Policy Network和一个识别网络Recognition Network,其中策略网络的作用是对视频序列的每个模态片段计算二进制策略向量,用来判断是否保留当前模态的数据进行后续的识别。
识别网络由多个子网络构成,分别对上一步选取得到的多模态数据进行特征提取和后融合得到识别结果。整体网络联合训练,在测试阶段,首先将输入多模态视频片段送入策略网络,其输出决定用于给定片段的正确模态,然后将选择的输入模态路由到识别网络中的相应的子网络以生成片段级预测。
最后,网络将所有片段级预测平均作为视频级预测。与普通的视频理解模型相比,轻量级策略网络(本文使用的是MobileNetV2)产生的额外计算成本可以忽略不计。
经过一系列的实验表明,本文方法在四个标准数据集上都取得了较好的效果。