【CVPR2021】基于时序上下文聚合的动作提名修正网络 - 专知VIP

会员服务 ·

0

时序上下文 · CVPR 2021 ·

2021 年 4 月 4 日

【CVPR2021】基于时序上下文聚合的动作提名修正网络

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

时序动作提名生成旨在从一段未修剪的长视频当中生成包含可能存在人类动作的视频片段，其结合具体的动作类别标签即构成时序动作检测任务。目前的方法大多致力于生成灵活准确的时序边界与可靠的提名置信度，但是仍然受限于匮乏的视频时序依赖和动作边界建模，导致了充满噪声的候选提名边界和质量欠佳的置信度分数。

目前主流的时序动作提名生成方法主要分为两步，首先对输入的视频特征序列进行简单的时序信息融合，然后使用基于边界预测的方法或者是基于预定义锚点框回归的方法生成可能包含人体动作的大量候选时序提名。

https://www.zhuanzhi.ai/paper/e551d60b61b78e5324762d4cff4bff29

本文提出了一个用于时序动作提名修正的端到端框架。该方法主要针对现有主流时序动作提名生成方法中的两步骤分别进行改进：

在第一步中，现有方法大多使用堆叠的1D时序卷积进行简单的时序信息融合，然而，1D卷积在计算不同时序点之间的位置关系时，受限于卷积核的形状和尺寸，虽然可以较好地建模短期的时序依赖，但是对于灵活多变的上下文关系则望尘莫及。部分办法选择了全局融合的方式实现了对全局特征的捕获，但是直接使用全局池化之后的特征拼接到整个视频特征序列上的每一个时刻位置，导致每一个时刻获得的全局信息都是相同的，由此捕获的时序依赖关系相对固定，缺乏多样性和区分度，无法充分建模多样的长时序依赖关系。
在第二步中，基于预定义锚点框回归的方法可以提供基于提名全局特征的可靠置信度分数，然而直接使用提名的全局特征对于其局部边界的准确位置不够敏感，况且预定义尺度和比例的提名时序长度往往非常受限，不够灵活，无法生成任意长度的候选提名。基于边界预测的方法利用边界的局部特征判断一个时间点是否属于动作边界，对动作的起止边缘比较敏感，并且使用边界匹配机制来生成大量灵活的动作提名，获得较高的召回率。由于缺乏客观的提名特征，其置信度不够可靠，导致其准确率较低。

参考链接： https://mp.weixin.qq.com/s/2ztaALqJKeuViAmk6Ll6jA

成为VIP会员查看完整内容

8

相关内容

时序上下文

时序上下文

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

专知会员服务

28+阅读 · 2021年5月25日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

（CVPR2021）基于结构保持的弱监督目标定位

专知会员服务

21+阅读 · 2021年5月1日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【WWW2021】细粒度城市流量预测

专知会员服务

33+阅读 · 2021年4月6日

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

专知会员服务

14+阅读 · 2021年2月25日

【CVPR2020】时序分组注意力视频超分

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

极市平台

3+阅读 · 2019年7月31日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

17+阅读 · 2019年1月30日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

【紫冬分享】基于人体骨架的行为识别

【紫冬分享】基于人体骨架的行为识别

中国科学院自动化研究所

20+阅读 · 2019年1月18日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

学界 | 清华等机构提出基于内部一致性的行人检索方法，实现当前最优

学界 | 清华等机构提出基于内部一致性的行人检索方法，实现当前最优

机器之心

4+阅读 · 2018年6月19日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

【PointCNN全面刷新测试记录】山东大学提出通用点云卷积框架

【PointCNN全面刷新测试记录】山东大学提出通用点云卷积框架

新智元

4+阅读 · 2018年2月1日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

Deception Detection in Videos using the Facial Action Coding System

Arxiv

0+阅读 · 2021年5月28日

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Arxiv

5+阅读 · 2021年3月24日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Arxiv

7+阅读 · 2020年3月19日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Towards Precise End-to-end Weakly Supervised Object Detection Network

Towards Precise End-to-end Weakly Supervised Object Detection Network

Arxiv

4+阅读 · 2019年11月27日

Graph Convolutional Networks for Temporal Action Localization

Arxiv

5+阅读 · 2019年9月7日

Few-shot Adaptive Faster R-CNN

Few-shot Adaptive Faster R-CNN

Arxiv

3+阅读 · 2019年3月22日

A Unified Method for First and Third Person Action Recognition

Arxiv

3+阅读 · 2017年12月30日

VIP会员

相关主题

时序上下文

相关VIP内容

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

专知会员服务

28+阅读 · 2021年5月25日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

（CVPR2021）基于结构保持的弱监督目标定位

专知会员服务

21+阅读 · 2021年5月1日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【WWW2021】细粒度城市流量预测

专知会员服务

33+阅读 · 2021年4月6日

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

专知会员服务

14+阅读 · 2021年2月25日

【CVPR2020】时序分组注意力视频超分

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

人机协同时代的军事指挥控制演进

《英国智库：瓦解俄罗斯防空系统生产，夺回制空权》最新报告

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

《战术突击工具包：军队的“边缘”操作系统》报告

相关资讯

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

极市平台

3+阅读 · 2019年7月31日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

17+阅读 · 2019年1月30日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

【紫冬分享】基于人体骨架的行为识别

【紫冬分享】基于人体骨架的行为识别

中国科学院自动化研究所

20+阅读 · 2019年1月18日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

学界 | 清华等机构提出基于内部一致性的行人检索方法，实现当前最优

学界 | 清华等机构提出基于内部一致性的行人检索方法，实现当前最优

机器之心

4+阅读 · 2018年6月19日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

【PointCNN全面刷新测试记录】山东大学提出通用点云卷积框架

【PointCNN全面刷新测试记录】山东大学提出通用点云卷积框架

新智元

4+阅读 · 2018年2月1日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

相关论文

Deception Detection in Videos using the Facial Action Coding System

Arxiv

0+阅读 · 2021年5月28日

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Arxiv

5+阅读 · 2021年3月24日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Arxiv

7+阅读 · 2020年3月19日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Towards Precise End-to-end Weakly Supervised Object Detection Network

Towards Precise End-to-end Weakly Supervised Object Detection Network

Arxiv

4+阅读 · 2019年11月27日

Graph Convolutional Networks for Temporal Action Localization

Arxiv

5+阅读 · 2019年9月7日

Few-shot Adaptive Faster R-CNN

Few-shot Adaptive Faster R-CNN

Arxiv

3+阅读 · 2019年3月22日

A Unified Method for First and Third Person Action Recognition

Arxiv

3+阅读 · 2017年12月30日

微信扫码咨询专知VIP会员