【CVPR2021】通过上下文和运动解耦的自监督视频表示学习 - 专知

会员服务 ·

0

【CVPR2021】通过上下文和运动解耦的自监督视频表示学习

2021 年 4 月 15 日 专知

视频行为理解中的一个核心难点是「场景偏差」问题。比如，一段在篮球场跳舞的视频，会被识别为打篮球，而非跳舞。我们提出一种自监督视频表征学习方案，通过直接在代理任务中显式解耦场景与运动信息，处理「场景偏差」难题。值得注意的是，本方案中，解耦的场景与运动信息均从「视频压缩编码」中提取得到。其中场景由关键帧 (keyframes) 表示，运动由运动向量 (motion vectors) 表示，二者提取速度是光流的100倍。基于该解耦方案预训练的视频网络模型，迁移至行为理解和视频检索两项下游任务，性能均显著超过SOTA。

https://www.zhuanzhi.ai/paper/591341f12cfa1759edac18c262ce5a31

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CMDV” 就可以获取《【CVPR2021】通过上下文和运动解耦的自监督视频表示学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

1

相关内容

视频表示学习

视频表示学习

【CVPR2021】用于行人重识别的无监督多源域自适应

专知会员服务

21+阅读 · 2021年5月1日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation

Arxiv

8+阅读 · 2020年12月7日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

ContextDesc: Local Descriptor Augmentation with Cross-Modality Context

Arxiv

3+阅读 · 2019年4月8日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Language Modeling with Gated Convolutional Networks

Arxiv

5+阅读 · 2017年9月8日

VIP会员

相关主题

视频表示学习

视频表征学习

相关VIP内容

【CVPR2021】用于行人重识别的无监督多源域自适应

专知会员服务

21+阅读 · 2021年5月1日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

热门VIP内容

开通专知VIP会员享更多权益服务

美海军作战管理系统：变革战场空间的二十年

《任务与武器驱动美海军舰队设计》报告

俄罗斯“沙希德”/“天竺葵”攻击无人机

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

相关资讯

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

相关论文

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation

Arxiv

8+阅读 · 2020年12月7日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

ContextDesc: Local Descriptor Augmentation with Cross-Modality Context

Arxiv

3+阅读 · 2019年4月8日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Language Modeling with Gated Convolutional Networks

Arxiv

5+阅读 · 2017年9月8日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员