【CVPR2021】通过上下文和运动解耦的自监督视频表示学习 - 专知VIP

会员服务 ·

0

自监督学习 · 视频理解 · CVPR 2021 ·

2021 年 4 月 15 日

【CVPR2021】通过上下文和运动解耦的自监督视频表示学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视频行为理解中的一个核心难点是「场景偏差」问题。比如，一段在篮球场跳舞的视频，会被识别为打篮球，而非跳舞。我们提出一种自监督视频表征学习方案，通过直接在代理任务中显式解耦场景与运动信息，处理「场景偏差」难题。值得注意的是，本方案中，解耦的场景与运动信息均从「视频压缩编码」中提取得到。其中场景由关键帧 (keyframes) 表示，运动由运动向量 (motion vectors) 表示，二者提取速度是光流的100倍。基于该解耦方案预训练的视频网络模型，迁移至行为理解和视频检索两项下游任务，性能均显著超过SOTA。

https://www.zhuanzhi.ai/paper/591341f12cfa1759edac18c262ce5a31

成为VIP会员查看完整内容

20

相关内容

自监督学习

自监督学习

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

【CVPR2021】基于结构保持的弱监督目标定位

专知会员服务

16+阅读 · 2021年6月6日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

专知会员服务

13+阅读 · 2020年11月3日

【CVPR2021】细粒度多标签分类

【CVPR2021】细粒度多标签分类

专知

44+阅读 · 2021年3月8日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ICCV2019】VrR-VG：重新关注与视觉相关的关系

【ICCV2019】VrR-VG：重新关注与视觉相关的关系

专知

4+阅读 · 2019年12月1日

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

泡泡机器人SLAM

16+阅读 · 2019年9月3日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

基于上下文信息分离的无监督运动目标检测（文末附有论文及源码下载）

基于上下文信息分离的无监督运动目标检测（文末附有论文及源码下载）

计算机视觉战队

5+阅读 · 2019年7月4日

通过预训练提升语言理解

通过预训练提升语言理解

开放知识图谱

4+阅读 · 2018年11月21日

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

微软研究院AI头条

7+阅读 · 2018年9月13日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

上下文感知相关滤波跟踪

上下文感知相关滤波跟踪

统计学习与视觉计算组

6+阅读 · 2017年6月17日

Adversarial Attacks on Optimization based Planners

Arxiv

0+阅读 · 2021年6月4日

Avoiding Dense and Dynamic Obstacles in Enclosed Spaces: Application to Moving in Crowds

Arxiv

0+阅读 · 2021年6月4日

Self-supervised Video Representation Learning by Context and Motion Decoupling

Arxiv

6+阅读 · 2021年4月2日

Composite Adversarial Attacks

Arxiv

12+阅读 · 2020年12月10日

Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR

Arxiv

4+阅读 · 2019年3月25日

Zero-Shot Object Detection

Arxiv

9+阅读 · 2018年4月12日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

Arxiv

7+阅读 · 2018年1月24日

Dual Path Networks for Multi-Person Human Pose Estimation

Arxiv

3+阅读 · 2017年10月27日

VIP会员

相关主题

自监督学习

相关VIP内容

【CVPR2021】基于结构保持的弱监督目标定位

专知会员服务

16+阅读 · 2021年6月6日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

专知会员服务

13+阅读 · 2020年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【CVPR2021】细粒度多标签分类

【CVPR2021】细粒度多标签分类

专知

44+阅读 · 2021年3月8日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ICCV2019】VrR-VG：重新关注与视觉相关的关系

【ICCV2019】VrR-VG：重新关注与视觉相关的关系

专知

4+阅读 · 2019年12月1日

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

泡泡机器人SLAM

16+阅读 · 2019年9月3日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

基于上下文信息分离的无监督运动目标检测（文末附有论文及源码下载）

基于上下文信息分离的无监督运动目标检测（文末附有论文及源码下载）

计算机视觉战队

5+阅读 · 2019年7月4日

通过预训练提升语言理解

通过预训练提升语言理解

开放知识图谱

4+阅读 · 2018年11月21日

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

微软研究院AI头条

7+阅读 · 2018年9月13日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

上下文感知相关滤波跟踪

上下文感知相关滤波跟踪

统计学习与视觉计算组

6+阅读 · 2017年6月17日

相关论文

Adversarial Attacks on Optimization based Planners

Arxiv

0+阅读 · 2021年6月4日

Avoiding Dense and Dynamic Obstacles in Enclosed Spaces: Application to Moving in Crowds

Arxiv

0+阅读 · 2021年6月4日

Self-supervised Video Representation Learning by Context and Motion Decoupling

Arxiv

6+阅读 · 2021年4月2日

Composite Adversarial Attacks

Arxiv

12+阅读 · 2020年12月10日

Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR

Arxiv

4+阅读 · 2019年3月25日

Zero-Shot Object Detection

Arxiv

9+阅读 · 2018年4月12日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

Arxiv

7+阅读 · 2018年1月24日

Dual Path Networks for Multi-Person Human Pose Estimation

Arxiv

3+阅读 · 2017年10月27日

微信扫码咨询专知VIP会员