视频行为理解中的一个核心难点是「场景偏差」问题。比如,一段在篮球场跳舞的视频,会被识别为打篮球,而非跳舞。我们提出一种自监督视频表征学习方案,通过直接在代理任务中显式解耦场景与运动信息,处理「场景偏差」难题。值得注意的是,本方案中,解耦的场景与运动信息均从「视频压缩编码」中提取得到。其中场景由关键帧 (keyframes) 表示,运动由运动向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于该解耦方案预训练的视频网络模型,迁移至行为理解和视频检索两项下游任务,性能均显著超过SOTA。

https://www.zhuanzhi.ai/paper/591341f12cfa1759edac18c262ce5a31

成为VIP会员查看完整内容
19

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
专知会员服务
15+阅读 · 2021年6月6日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
62+阅读 · 2021年3月12日
专知会员服务
21+阅读 · 2021年3月9日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
18+阅读 · 2021年2月12日
专知会员服务
50+阅读 · 2021年1月19日
【CVPR2021】细粒度多标签分类
专知
44+阅读 · 2021年3月8日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
视觉物体跟踪新进展:让跟踪器读懂目标语义信息
微软研究院AI头条
7+阅读 · 2018年9月13日
上下文感知相关滤波跟踪
统计学习与视觉计算组
6+阅读 · 2017年6月17日
Arxiv
0+阅读 · 2021年6月4日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
专知会员服务
15+阅读 · 2021年6月6日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
62+阅读 · 2021年3月12日
专知会员服务
21+阅读 · 2021年3月9日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
18+阅读 · 2021年2月12日
专知会员服务
50+阅读 · 2021年1月19日
相关资讯
【CVPR2021】细粒度多标签分类
专知
44+阅读 · 2021年3月8日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
视觉物体跟踪新进展:让跟踪器读懂目标语义信息
微软研究院AI头条
7+阅读 · 2018年9月13日
上下文感知相关滤波跟踪
统计学习与视觉计算组
6+阅读 · 2017年6月17日
相关论文
Arxiv
0+阅读 · 2021年6月4日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年1月24日
微信扫码咨询专知VIP会员