加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。点击文末“阅读原文”立刻申请入群~
作者:jx zhong
来源:知乎
链接:https://zhuanlan.zhihu.com/p/40393800
关于untrimmed video analysis(未剪辑视频分析)的领域,在众多大牛的努力下( @林天威、 @Showthem、 @高继扬(高博曾在极市做过关于时序动作检测的线上分享,点击直接跳转阅读)等),前两年基于全监督的视频时序检测一路高歌猛进,直至今年的TAL-Net(http://cn.arxiv.org/pdf/1804.07667.pdf)把THUMOS'14的Action localization mAP@tIoU=0.5搞到了42.8%——恐怖如斯!
对于同一个问题,在弱监督的情况下,相关研究最近蓬勃发展,在今年各种顶会上,关于弱监督的视频时序动作检测(Weakly Supervised Action Detection/Localization)的论文比往年加起来都多!
基于全监督的视频时序检测,在知乎已有很多很多的综述:
Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)
Temporal Action Detection (时序动作检测)方向2017年会议论文整理
[行为检测|行为识别]调研综述
视频理解近期研究进展
类似的还有不少文章与回答,写这些的个个都是人才,说话又好听,超喜欢看这些……“眼前有景道不得,崔颢题诗在上头”,珠玉在前,我就不再狗尾续貂了。在本文中,我们主要谈一下基于弱监督的视频时序检测。
“视频时序动作检测”是指在可能包含一个或多个动作片段的未剪辑长视频中,定位出这些动作片段的起止时间,并指出片段具体属于哪一类动作。“全监督”指的是训练标签中包含了片段级别的动作类别,以及动作片段的时间信息,详见上述的文章;“弱监督”则是指训练集中只标记整段视频包含的动作类别,并没有片段级别的时间信息。
【1】Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images (ACM MM'15)
mAP@tIoU=0.5 on THUMOS'14: 4.4%
这是上古时代的工作,应用了领域迁移(静态图片→动态视频)的思想。根据动作的名称,在Flickr 和Google上搜出这些包含动作的图片,然后过滤掉不适合迁移的搜索结果,并用剩下的图片辅助弱监督的视频时序检测。
http://cn.arxiv.org/pdf/1504.00983.pdf
【2】UntrimmedNets for Weakly Supervised Action Recognition and Detection(CVPR'17)
mAP@tIoU=0.5 on THUMOS'14: 13.7%
mAP@tIoU=0.5 on ActivityNet-v1.2 val: 7.4% (该数据集上的实验结果引自论文【6】)
比较正式地提出“弱监督的动作识别与时序检测”这两个任务,引领了后来基于这两个任务的一系列工作。该方法可以视为王利民教授、熊元骏研究员、乔宇研究员、 @林达华教授、汤晓鸥教授团队在ECCV'16的工作Temporal Segment Network (TSN)的拓展,得到片段级别的动作概率后,用soft selection模块——给出每个片段样本得分对应的attention权重,然后加权融合为video-level的动作分类输出,根据该输出与视频标签做梯度反传。在测试阶段,用attention权重排除掉不包含动作的视频片段,并选取动作概率大于0.5的片段作为结果。
http://cn.arxiv.org/pdf/1703.03329.pdf
【3】Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization (ICCV'17)
mAP@tIoU=0.5 on THUMOS'14: 6.84%。严格来说,这篇文章做的是“定位”而非“检测”——这篇文章在THUMOS'14的校验集上训练与测试;而其他文章在校验集训练,在测试集测试。
由于分类网络倾向于关注“最有区分度”的视频帧而忽视其他,这些帧往往时间轴上分布比较零碎,难以组成完整的视频片段;但定位任务恰恰需要找出“完整”的片段。为了解决这个矛盾,该方法过在训练样本中,随机隐藏一些帧,来迫使分类网络“雨露均沾”,也学习到区分度相对低一点的视频帧的模式。这篇文章在出发点上和今年我们团队的文章【5】、 @林天威团队的文章【8】有异曲同工之妙,但方法不同,我们下文细说。
http://cn.arxiv.org/pdf/1704.04232.pdf
【4】Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR'18)
mAP@tIoU=0.5 on THUMOS'14: 16.2% (UntrimmedNet特征) / 16.9%(I3D特征)
mAP@tIoU=0.5 on ActivityNet-v1.3 val: 29.3%(I3D特征)
@LwoW写了一篇知乎专栏《基于弱监督学习的人体行为时序检测算法》专门解读这篇文章,在此简单说一下其原理——类似于 @周博磊大神发表于CVPR'16的Class Activation Maps (CAM) ,本文在时间轴上定义了一个T-CAM,反映某个片段对某种动作分类的重要性,并基于此,对相关动作生成对应的候选时间区间。
http://cn.arxiv.org/pdf/1712.05080.pdf
【5】Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector (ACM MM'18)
mAP@tIoU=0.5 on THUMOS'14: 15.9%
mAP@tIoU=0.5 on ActivityNet-v1.2 val: 27.3%
这是我们团队的工作,本来准备投CVPR'18,但那个时候我硕士刚入学,图样图森破,没把握好进度,直到硕一下学期,才最终完成并投稿ACM MM'18,心疼一波当时的自己和队友们~本文也是为了解决分类器关注的视频帧过于碎片化的问题;不同于文献【3】的随机擦除,我们一步步地擦除并训练多个分类器,最后直接合并各个分类器的预测片段,效果更好。此外,我们引入了条件随机场调整结果,让时间相近的视频片段倾向于标为相同的类别,这对检测效果的提升极其巨大。
http://cn.arxiv.org/pdf/1807.02929.pdf
【6】AutoLoc: Weakly-supervised Temporal Action Localization in Untrimmed Videos(ECCV'18)
mAP@tIoU=0.5 on THUMOS'14: 21.2%
mAP@tIoU=0.5 on ActivityNet-v1.2 val: 27.3%
这是寿政大神 @Showthem的论文,不同于以往弱监督时序检测工作中,按照阈值来筛出动作片段,本文首创性地直接尝试预测时间轴边界,其主要实现思想——对于某个动作的类别得分,鼓励动作片段之外的平均得分,要尽量低于动作片段之内的平均得分。这篇论文的代码,将会开源于:
https://github.com/zhengshou/AutoLoc。
http://cn.arxiv.org/pdf/1807.08333.pdf
【7】W-TALC: Weakly-supervised Temporal Activity Localization and Classification(ECCV'18)
mAP@tIoU=0.5 on THUMOS'14: 18.8% (UntrimmedNet特征) / 22.8%(I3D特征)
mAP@tIoU=0.5 on ActivityNet-v1.2 val: 37.0%
方法主要搞了两个Loss:一个是k-max multiple instance learning loss,类似于UntrimmedNet的top-k pooling(hard selection)——对于一个视频,取某一类概率最大的k个视频片段来参与计算分类损失,k的数值正比于整段视频长度;另一个是co-activity similarity loss,在特征空间上驱使同类动作的视频片段尽可能近一些,不同类的相对远一些——用了一个ranking hinge loss来实现。
http://cn.arxiv.org/pdf/1807.10418
【8】Cascaded Pyramid Mining Network for Weakly Supervised Temporal Action Localization (ACCV'18)
mAP@tIoU=0.5 on THUMOS'14: 16.1%
mAP@tIoU=0.5 on ActivityNet-v1.3 val: 39.29%
这是 @林天威前辈团队的工作,本方法用特征图上的在线擦除(不同于【3】【5】的在视频帧上擦除)生成互补的时间区域,以时间金字塔式的attention整合多尺度的信息,最终得到动作片段的预测。这篇文章提出方法在 ActivityNet-v1.3 val上的结果,是弱监督的视频时序检测已知工作中最好的。
http://cn.arxiv.org/pdf/1810.11794.pdf
【9】Segregated Temporal Assembly Recurrent Networks for Weakly Supervised Multiple Action Detection (AAAI'19)
mAP@tIoU=0.5 on THUMOS'14: 23.0%
mAP@tIoU=0.5 on ActivityNet-v1.3 val: 31.1%
这篇工作比较新,两周之前才放到arxiv上——原文写的很详细,讲方法的部分一共不到3页,就包含了18条带编号的等式!本方法把弱监督的视频时序检测视为一个“多实例多标签(multi-instance multi-label, MIML)问题”,用循环神经网络RNN来建模。① 针对attending repetition的问题(翻译成人话,就是两个动作片段相叠或相近时,RNN有可能把它们一起看待,即attention重合了),本文借鉴了机器翻译里的coverage机制,减少attention高的时间区域之重叠程度。② 针对trivial action missing的问题(即遗漏部分零碎的片段),对1的结果搞了一个alignment,引入single-instance action frequency作为监督信息。 ③ 最后,①②所得的attention结合ST-GradCAM(类似于【4】中T-CAM,不过是RNN版本,源自ICCV'17的GradCAM),输出最终的动作片段。其性能是目前THUMOS'14上,弱监督的视频时序检测的最优结果。
http://cn.arxiv.org/pdf/1811.07460.pdf
弱监督减轻了时间轴标注人力、时间成本,但是也加大了时序检测的难度。虽然在一定程度是靠“猜”,但对于大多数动作类别的大多数视频片段,貌似得到的结果还算不错——当然,进步空间依然不小,这个问题具有一定研究价值。未来,期待更多有意思的工作出现。
*延伸阅读
觉得有用麻烦给个好看啦~