【CVPR2021行为/动作识别篇】1、Temporal Difference Networks for Efficient Action Recognition

【CVPR2021行为/动作识别篇】1、Temporal Difference Networks for Efficient Action Recognition

龙一的编程life该公众号主要用于分享人工智能、嵌入式等相关学习笔记以及项目,包括但不限于Python、C/C++、DL、ML、CV、ARM、Linux等相关技术;分享资源,一起学习一起happy!

标题用于有效动作识别的时差网络

地址:TDN: Temporal Difference Networks for Efficient Action Recognition

代码GitHub - MCG-NJU/TDN: [CVPR 2021] TDN: Temporal Difference Networks for Efficient Action Recognition

时间建模对于视频中的动作识别仍然具有挑战性。为了缓解这个问题,本文提出了一种新的视频体系结构,称为时间差分网络(TDN),其重点是捕获多尺度时间信息以实现有效的动作识别。我们的TDN的核心是通过明确利用时间差分算子设计一个有效的时间模块(TDM),并系统地评估其对短期和长期运动建模的影响。为了在整个视频中完全捕获时间信息,我们的TDN采用两级差分建模范式。具体而言,对于局部运动建模,使用连续帧上的时间差,为2D CNN提供更精细的运动模式,而对于全局运动建模,合并跨段的时间差,以捕获运动特征激发的远程(龙long-range)结构。TDN提供了一个简单且有原则的时态建模框架(temporal modeling framework),并且可以用现有的CNN以较小的额外计算成本进行实例化。我们的TDN在Something-Something V1&V2数据集上呈现出一种新的状态,并与KimeTCS-400数据集上的最佳性能相媲美。此外,我们还进行了深入的消融研究,绘制了TDN的可视化结果,希望能对时差建模提供深入的分析。

本文主要贡献:

  • 我们推广了RGB差分的思想,为视频中的运动建模设计了一个高效的时间差分模块(TDM),并通过系统地展示有效和详细的模块设计,提供了3D卷积的替代方案。
  • 我们的TDN提出了一个视频级运动建模框架,其中包含了提出的时间差分模块,重点是捕获视频识别的短期和长期时间结构。
  • 在使用相同主干的设置下,我们的TDN在Kinetics and Something-Something数据集上获得了新的最先进的性能。我们还对TDM进行了深入的消融研究,为我们的时差建模提供一些见解。

Result

表2,在Something-Something V1 and V2上测试,用ResNet50和ResNet101的主干实例化我们的TDN进行评估性能最优。

表3,在Kinetics-400验证集上测试,性能基本最优。TOP1和TOP5可能是测试榜单。

发布于 2021-09-26 20:22