对于视频理解任务而言,多种模态的输入数据往往会携带大量的冗余信息,除了普通的RGB帧数据,视频多模态分析还会用到音频、光流和深度图等模态的数据,但是对于某些时刻,其他模态的数据不论是数据获取还是前向传播都会有更高的计算性能要求,这对于一些即时的多模态应用是不合理的。

基于此,本文设计了一种自适应的多模态学习框架对一段视频的不同片段选取最为合适的模态数据作为输入,在保证识别精度的同时,获得了较为明显的计算量节省效果。 本文的整体框架包含了一个轻量的策略级网络Policy Network和一个识别网络Recognition Network,其中策略网络的作用是对视频序列的每个模态片段计算二进制策略向量,用来判断是否保留当前模态的数据进行后续的识别。

识别网络由多个子网络构成,分别对上一步选取得到的多模态数据进行特征提取和后融合得到识别结果。整体网络联合训练,在测试阶段,首先将输入多模态视频片段送入策略网络,其输出决定用于给定片段的正确模态,然后将选择的输入模态路由到识别网络中的相应的子网络以生成片段级预测。

最后,网络将所有片段级预测平均作为视频级预测。与普通的视频理解模型相比,轻量级策略网络(本文使用的是MobileNetV2)产生的额外计算成本可以忽略不计。

经过一系列的实验表明,本文方法在四个标准数据集上都取得了较好的效果。

成为VIP会员查看完整内容
17

相关内容

【AAAI2022】LGD:用于物体检测的标签引导自蒸馏
专知会员服务
14+阅读 · 2022年1月2日
专知会员服务
23+阅读 · 2021年9月16日
专知会员服务
35+阅读 · 2021年9月15日
专知会员服务
7+阅读 · 2021年4月4日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
39+阅读 · 2020年8月26日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知
8+阅读 · 2020年8月26日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
【泡泡一分钟】一种用于在线视频理解的高效卷积网络
泡泡机器人SLAM
5+阅读 · 2018年5月31日
【重磅】自适应无监督学习的特征提取方法
中国自动化学会
7+阅读 · 2018年2月6日
Arxiv
4+阅读 · 2019年8月7日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Arxiv
21+阅读 · 2018年5月23日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
相关论文
微信扫码咨询专知VIP会员