【CVPR2021】基于时序上下文聚合的动作提名修正网络 - 专知

会员服务 ·

0

【CVPR2021】基于时序上下文聚合的动作提名修正网络

2021 年 4 月 4 日 专知

时序动作提名生成旨在从一段未修剪的长视频当中生成包含可能存在人类动作的视频片段，其结合具体的动作类别标签即构成时序动作检测任务。目前的方法大多致力于生成灵活准确的时序边界与可靠的提名置信度，但是仍然受限于匮乏的视频时序依赖和动作边界建模，导致了充满噪声的候选提名边界和质量欠佳的置信度分数。

目前主流的时序动作提名生成方法主要分为两步，首先对输入的视频特征序列进行简单的时序信息融合，然后使用基于边界预测的方法或者是基于预定义锚点框回归的方法生成可能包含人体动作的大量候选时序提名。

https://www.zhuanzhi.ai/paper/e551d60b61b78e5324762d4cff4bff29

本文提出了一个用于时序动作提名修正的端到端框架。该方法主要针对现有主流时序动作提名生成方法中的两步骤分别进行改进：

1. 在第一步中，现有方法大多使用堆叠的1D时序卷积进行简单的时序信息融合，然而，1D卷积在计算不同时序点之间的位置关系时，受限于卷积核的形状和尺寸，虽然可以较好地建模短期的时序依赖，但是对于灵活多变的上下文关系则望尘莫及。部分办法选择了全局融合的方式实现了对全局特征的捕获，但是直接使用全局池化之后的特征拼接到整个视频特征序列上的每一个时刻位置，导致每一个时刻获得的全局信息都是相同的，由此捕获的时序依赖关系相对固定，缺乏多样性和区分度，无法充分建模多样的长时序依赖关系。

2. 在第二步中，基于预定义锚点框回归的方法可以提供基于提名全局特征的可靠置信度分数，然而直接使用提名的全局特征对于其局部边界的准确位置不够敏感，况且预定义尺度和比例的提名时序长度往往非常受限，不够灵活，无法生成任意长度的候选提名。基于边界预测的方法利用边界的局部特征判断一个时间点是否属于动作边界，对动作的起止边缘比较敏感，并且使用边界匹配机制来生成大量灵活的动作提名，获得较高的召回率。由于缺乏客观的提名特征，其置信度不够可靠，导致其准确率较低。

参考链接：

https://mp.weixin.qq.com/s/2ztaALqJKeuViAmk6Ll6jA

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“TAPR” 就可以获取《【CVPR2021】基于时序上下文聚合的动作提名修正网络》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

2

相关内容

时序上下文

时序上下文

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】通过上下文和运动解耦的自监督视频表示学习

专知会员服务

20+阅读 · 2021年4月15日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

CVPR2021-单目实时全身捕捉的方法

专知会员服务

20+阅读 · 2021年3月18日

【CVPR2021】面向视频动作分割的高效网络结构搜索

【CVPR2021】面向视频动作分割的高效网络结构搜索

专知会员服务

14+阅读 · 2021年3月14日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

IJCAI20 | 保持网络模式的异质信息网络表示学习

IJCAI20 | 保持网络模式的异质信息网络表示学习

专知

8+阅读 · 2020年8月24日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

极市平台

3+阅读 · 2019年7月31日

论文浅尝 | 基于复杂查询图编码的知识库问答

论文浅尝 | 基于复杂查询图编码的知识库问答

开放知识图谱

17+阅读 · 2019年7月22日

CVPR2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

CVPR2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

极市平台

7+阅读 · 2019年6月11日

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

PaperWeekly

10+阅读 · 2019年6月11日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

PaperWeekly

4+阅读 · 2019年4月10日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

Residual Energy-Based Models for End-to-End Speech Recognition

Arxiv

0+阅读 · 2021年6月23日

Lower and Upper Bounds on the VC-Dimension of Tensor Network Models

Arxiv

0+阅读 · 2021年6月22日

Neural Spectral Marked Point Processes

Arxiv

0+阅读 · 2021年6月20日

Synthetic COVID-19 Chest X-ray Dataset for Computer-Aided Diagnosis

Arxiv

0+阅读 · 2021年6月17日

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Arxiv

5+阅读 · 2021年3月24日

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

Arxiv

39+阅读 · 2019年7月31日

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Arxiv

5+阅读 · 2018年12月6日

LPCNet: Improving Neural Speech Synthesis Through Linear Prediction

Arxiv

3+阅读 · 2018年10月28日

Knowledge-based Recurrent Attentive Neural Network for Small Object Detection

Arxiv

3+阅读 · 2018年5月2日

Learning Representative Temporal Features for Action Recognition

Arxiv

4+阅读 · 2018年3月14日

VIP会员

相关主题

时序上下文

相关VIP内容

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】通过上下文和运动解耦的自监督视频表示学习

专知会员服务

20+阅读 · 2021年4月15日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

CVPR2021-单目实时全身捕捉的方法

专知会员服务

20+阅读 · 2021年3月18日

【CVPR2021】面向视频动作分割的高效网络结构搜索

【CVPR2021】面向视频动作分割的高效网络结构搜索

专知会员服务

14+阅读 · 2021年3月14日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

新书册《几何深度学习的数学基础》

中程单向攻击无人机的战略意义：俄乌战争启示

在无标注条件下适配视觉—语言模型：全面综述

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

相关资讯

IJCAI20 | 保持网络模式的异质信息网络表示学习

IJCAI20 | 保持网络模式的异质信息网络表示学习

专知

8+阅读 · 2020年8月24日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

ICCV 2019 | 时序动作提名，边界匹配网络详解（ActivityNet冠军方案）

极市平台

3+阅读 · 2019年7月31日

论文浅尝 | 基于复杂查询图编码的知识库问答

论文浅尝 | 基于复杂查询图编码的知识库问答

开放知识图谱

17+阅读 · 2019年7月22日

CVPR2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

CVPR2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

极市平台

7+阅读 · 2019年6月11日

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

PaperWeekly

10+阅读 · 2019年6月11日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

PaperWeekly

4+阅读 · 2019年4月10日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

相关论文

Residual Energy-Based Models for End-to-End Speech Recognition

Arxiv

0+阅读 · 2021年6月23日

Lower and Upper Bounds on the VC-Dimension of Tensor Network Models

Arxiv

0+阅读 · 2021年6月22日

Neural Spectral Marked Point Processes

Arxiv

0+阅读 · 2021年6月20日

Synthetic COVID-19 Chest X-ray Dataset for Computer-Aided Diagnosis

Arxiv

0+阅读 · 2021年6月17日

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Temporal Context Aggregation Network for Temporal Action Proposal Refinement

Arxiv

5+阅读 · 2021年3月24日

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

Arxiv

39+阅读 · 2019年7月31日

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Arxiv

5+阅读 · 2018年12月6日

LPCNet: Improving Neural Speech Synthesis Through Linear Prediction

Arxiv

3+阅读 · 2018年10月28日

Knowledge-based Recurrent Attentive Neural Network for Small Object Detection

Arxiv

3+阅读 · 2018年5月2日

Learning Representative Temporal Features for Action Recognition

Arxiv

4+阅读 · 2018年3月14日

大家都在搜

国防科技创新

大型语言模型

无人机集群

软件无线电

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员