基于弱监督的视频时序动作检测的介绍

2019 年 2 月 6 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


作者:jx zhong

来源:知乎

链接:https://zhuanlan.zhihu.com/p/40393800


关于untrimmed video analysis(未剪辑视频分析)的领域,在众多大牛的努力下( @林天威、 @Showthem、 @高继扬(高博曾在极市做过关于时序动作检测的线上分享,点击直接跳转阅读)等),前两年基于全监督的视频时序检测一路高歌猛进,直至今年的TAL-Net(http://cn.arxiv.org/pdf/1804.07667.pdf)把THUMOS'14的Action localization mAP@tIoU=0.5搞到了42.8%——恐怖如斯!


对于同一个问题,在弱监督的情况下,相关研究最近蓬勃发展,在今年各种顶会上,关于弱监督的视频时序动作检测(Weakly Supervised Action Detection/Localization)的论文比往年加起来都多!


问题陈述

  • 基于全监督的视频时序检测,在知乎已有很多很多的综述:

  • Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)

  • Temporal Action Detection (时序动作检测)方向2017年会议论文整理

  • [行为检测|行为识别]调研综述

  • 视频理解近期研究进展


类似的还有不少文章与回答,写这些的个个都是人才,说话又好听,超喜欢看这些……“眼前有景道不得,崔颢题诗在上头”,珠玉在前,我就不再狗尾续貂了。在本文中,我们主要谈一下基于弱监督的视频时序检测。


视频时序动作检测”是指在可能包含一个或多个动作片段的未剪辑长视频中,定位出这些动作片段的起止时间,并指出片段具体属于哪一类动作。“全监督”指的是训练标签中包含了片段级别的动作类别,以及动作片段的时间信息,详见上述的文章;“弱监督”则是指训练集中只标记整段视频包含的动作类别,并没有片段级别的时间信息。


研究回顾与最新进展

【1】Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images (ACM MM'15)

  • mAP@tIoU=0.5 on THUMOS'14: 4.4%

  • 这是上古时代的工作,应用了领域迁移(静态图片→动态视频)的思想。根据动作的名称,在Flickr 和Google上搜出这些包含动作的图片,然后过滤掉不适合迁移的搜索结果,并用剩下的图片辅助弱监督的视频时序检测。

  • http://cn.arxiv.org/pdf/1504.00983.pdf


【2】UntrimmedNets for Weakly Supervised Action Recognition and Detection(CVPR'17)

  • mAP@tIoU=0.5 on THUMOS'14: 13.7%

  • mAP@tIoU=0.5 on ActivityNet-v1.2 val: 7.4% (该数据集上的实验结果引自论文【6】)

  • 比较正式地提出“弱监督的动作识别与时序检测”这两个任务,引领了后来基于这两个任务的一系列工作。该方法可以视为王利民教授、熊元骏研究员、乔宇研究员、 @林达华教授、汤晓鸥教授团队在ECCV'16的工作Temporal Segment Network (TSN)的拓展,得到片段级别的动作概率后,用soft selection模块——给出每个片段样本得分对应的attention权重,然后加权融合为video-level的动作分类输出,根据该输出与视频标签做梯度反传。在测试阶段,用attention权重排除掉不包含动作的视频片段,并选取动作概率大于0.5的片段作为结果。

  • http://cn.arxiv.org/pdf/1703.03329.pdf


【3】Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization (ICCV'17)

  • mAP@tIoU=0.5 on THUMOS'14: 6.84%。严格来说,这篇文章做的是“定位”而非“检测”——这篇文章在THUMOS'14的校验集上训练与测试;而其他文章在校验集训练,在测试集测试。

  • 由于分类网络倾向于关注“最有区分度”的视频帧而忽视其他,这些帧往往时间轴上分布比较零碎,难以组成完整的视频片段;但定位任务恰恰需要找出“完整”的片段。为了解决这个矛盾,该方法过在训练样本中,随机隐藏一些帧,来迫使分类网络“雨露均沾”,也学习到区分度相对低一点的视频帧的模式。这篇文章在出发点上和今年我们团队的文章【5】、 @林天威团队的文章【8】有异曲同工之妙,但方法不同,我们下文细说。

  • http://cn.arxiv.org/pdf/1704.04232.pdf


【4】Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR'18)

  • mAP@tIoU=0.5 on THUMOS'14: 16.2% (UntrimmedNet特征) / 16.9%(I3D特征)

  • mAP@tIoU=0.5 on ActivityNet-v1.3 val: 29.3%(I3D特征)

  • @LwoW写了一篇知乎专栏《基于弱监督学习的人体行为时序检测算法》专门解读这篇文章,在此简单说一下其原理——类似于 @周博磊大神发表于CVPR'16的Class Activation Maps (CAM) ,本文在时间轴上定义了一个T-CAM,反映某个片段对某种动作分类的重要性,并基于此,对相关动作生成对应的候选时间区间。

  • http://cn.arxiv.org/pdf/1712.05080.pdf


【5】Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector (ACM MM'18)

  • mAP@tIoU=0.5 on THUMOS'14: 15.9%

  • mAP@tIoU=0.5 on ActivityNet-v1.2 val: 27.3%

  • 这是我们团队的工作,本来准备投CVPR'18,但那个时候我硕士刚入学,图样图森破,没把握好进度,直到硕一下学期,才最终完成并投稿ACM MM'18,心疼一波当时的自己和队友们~本文也是为了解决分类器关注的视频帧过于碎片化的问题;不同于文献【3】的随机擦除,我们一步步地擦除并训练多个分类器,最后直接合并各个分类器的预测片段,效果更好。此外,我们引入了条件随机场调整结果,让时间相近的视频片段倾向于标为相同的类别,这对检测效果的提升极其巨大。

  • http://cn.arxiv.org/pdf/1807.02929.pdf


【6】AutoLoc: Weakly-supervised Temporal Action Localization in Untrimmed Videos(ECCV'18)

  • mAP@tIoU=0.5 on THUMOS'14: 21.2%

  • mAP@tIoU=0.5 on ActivityNet-v1.2 val: 27.3%

  • 这是寿政大神 @Showthem的论文,不同于以往弱监督时序检测工作中,按照阈值来筛出动作片段,本文首创性地直接尝试预测时间轴边界,其主要实现思想——对于某个动作的类别得分,鼓励动作片段之外的平均得分,要尽量低于动作片段之内的平均得分。这篇论文的代码,将会开源于:

    https://github.com/zhengshou/AutoLoc

  • http://cn.arxiv.org/pdf/1807.08333.pdf


【7】W-TALC: Weakly-supervised Temporal Activity Localization and Classification(ECCV'18)

  • mAP@tIoU=0.5 on THUMOS'14: 18.8% (UntrimmedNet特征) / 22.8%(I3D特征)

  • mAP@tIoU=0.5 on ActivityNet-v1.2 val: 37.0%

  • 方法主要搞了两个Loss:一个是k-max multiple instance learning loss,类似于UntrimmedNet的top-k pooling(hard selection)——对于一个视频,取某一类概率最大的k个视频片段来参与计算分类损失,k的数值正比于整段视频长度;另一个是co-activity similarity loss,在特征空间上驱使同类动作的视频片段尽可能近一些,不同类的相对远一些——用了一个ranking hinge loss来实现。

  • http://cn.arxiv.org/pdf/1807.10418


【8】Cascaded Pyramid Mining Network for Weakly Supervised Temporal Action Localization (ACCV'18)

  • mAP@tIoU=0.5 on THUMOS'14: 16.1%

  • mAP@tIoU=0.5 on ActivityNet-v1.3 val: 39.29%

  • 这是 @林天威前辈团队的工作,本方法用特征图上的在线擦除(不同于【3】【5】的在视频帧上擦除)生成互补的时间区域,以时间金字塔式的attention整合多尺度的信息,最终得到动作片段的预测。这篇文章提出方法在 ActivityNet-v1.3 val上的结果,是弱监督的视频时序检测已知工作中最好的。

  • http://cn.arxiv.org/pdf/1810.11794.pdf


【9】Segregated Temporal Assembly Recurrent Networks for Weakly Supervised Multiple Action Detection (AAAI'19)

  • mAP@tIoU=0.5 on THUMOS'14: 23.0%

  • mAP@tIoU=0.5 on ActivityNet-v1.3 val: 31.1%

  • 这篇工作比较新,两周之前才放到arxiv上——原文写的很详细,讲方法的部分一共不到3页,就包含了18条带编号的等式!本方法把弱监督的视频时序检测视为一个“多实例多标签(multi-instance multi-label, MIML)问题”,用循环神经网络RNN来建模。① 针对attending repetition的问题(翻译成人话,就是两个动作片段相叠或相近时,RNN有可能把它们一起看待,即attention重合了),本文借鉴了机器翻译里的coverage机制,减少attention高的时间区域之重叠程度。② 针对trivial action missing的问题(即遗漏部分零碎的片段),对1的结果搞了一个alignment,引入single-instance action frequency作为监督信息。 ③ 最后,①②所得的attention结合ST-GradCAM(类似于【4】中T-CAM,不过是RNN版本,源自ICCV'17的GradCAM),输出最终的动作片段。其性能是目前THUMOS'14上,弱监督的视频时序检测的最优结果。

  • http://cn.arxiv.org/pdf/1811.07460.pdf


小结

弱监督减轻了时间轴标注人力、时间成本,但是也加大了时序检测的难度。虽然在一定程度是靠“猜”,但对于大多数动作类别的大多数视频片段,貌似得到的结果还算不错——当然,进步空间依然不小,这个问题具有一定研究价值。未来,期待更多有意思的工作出现。





*延伸阅读

极市干货|高继扬-时序动作检测

视频理解 S3D,I3D-GCN,SlowFastNet, LFB


每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~


觉得有用麻烦给个好看啦~  

登录查看更多
30

相关内容

【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
54+阅读 · 2020年6月24日
基于深度学习的表面缺陷检测方法综述
专知会员服务
92+阅读 · 2020年5月31日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
60+阅读 · 2020年5月15日
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
专知会员服务
109+阅读 · 2020年3月12日
深度学习视频中多目标跟踪:论文综述
专知会员服务
89+阅读 · 2019年10月13日
竞赛方案|VideoNet视频内容识别挑战赛
极市平台
14+阅读 · 2019年9月8日
极市干货|高继扬-时序动作检测
极市平台
4+阅读 · 2018年7月17日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
Arxiv
7+阅读 · 2018年12月5日
Arxiv
4+阅读 · 2018年10月5日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员