成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
国科大CVPR 2020论文:自监督学习新方法,让数据更复杂的视频表征学习性能大提升
2020 年 7 月 9 日
新智元
新智元推荐
编辑:元子
【新智元导读】
自监督表征学习由于无需人工标注,特征较好的泛化性等优势受到了越来越多的关注,并不断有研究在图像、语言等领域取得了较大进展。本论文则立足于数据形式更为复杂的视频表征学习,介绍了一种简单且有效的自监督学习方法,并在视频动作分类和检索这两个常见的目标任务中提升了性能,该论文入选了CVPR2020.
近年来,自监督表征学习由于无需人工标注,特征较好的泛化性等优势受到了越来越多的关注,并不断有研究在图像、语言等领域取得了较大进展。本论文则立足于数据形式更为复杂的视频表征学习,介绍了一种简单且有效的自监督学习方法,并在视频动作分类和检索这两个常见的目标任务中提升了性能,该论文入选了CVPR2020.
论文题目为《一种基于视频播放速率感知的自监督时空表征学习方法》,类似图像在空域具有多分辨率特性,视频在时域同样具有多分辨率特性,基于此,该论文通过设计一种关于速率感知的自监督任务来进行较为全面的视频时空表征学习。
论文地址:
https://arxiv.org/abs/2006.11476
视频的多分辨率特性
如图1所示,人们在观看一段运动视频,通常会采用两种播放方式:快进和慢放,通过快进了解运动概貌;通过慢放聚焦某个运动细节。这其实就对应视频的多分辨率特性:不同采样间隔下的有限视频帧在内容描述上具有时间跨度和精细程度的差异。大间隔采样(类似快进):时间跨度大,一般可以覆盖较为完整的运动过程,但精细程度低(低分辨率),更多反映的是整体运动的主要变化。小间隔采样(类似慢放):时间跨度小,一般只能局限于运动过程中的某一时段,但精细程度高(高分辨率),能够反映该时段更多的运动细节。
图1:两种常见的视频播放模式:快进和慢放
因此,对于一般输入帧数固定的·CNN视频网络模型而言,通过视频多分辨特性以得到更加丰富完善的特征表达是一种非常有效的方法,目前已有一些工作进行了探索和验证。而本论文则是把这种特性结合到自监督学习中,设计了一种新的视频自监督任务。
PPR(Playback Rate Perception)自监督任务框架
如图2所示,PRP首先在Dailed Sampling中使用不同的采样间隔
采样得到不同倍率
的快进视频段
作为网络输入,之后通过基于间隔分类的判别感知和基于慢放重构的生成感知这两种模式进行视频的表征学习。对于输入的快进视频,判别感知通过进行采样间隔的分类促使网络注重前景运动的主要变化(低分辨率特性);生成感知通过进行一定倍率的插值重构促使网络还原更多的运动细节(高分辨率特性);最终二者通过共享网络主干和联合优化来达到表征学习的协同互补。
图2:PRP整体框架
另外在生成感知中,不同于直接使用MSE损失,PPR通过对各个像素点的loss赋予不同的权值
来促进网络更注重对特定区域(前景运动区域)的重构。该权值形成的运动激活图
通过图3所示的几个步骤简单得到。其中包括:帧差(提取运动信息),下采样(抑制噪声),激活(稳定响应值),上采样(恢复到重构视频大小)。
图3:运动激活图
计算过程
实验结果与分析
我们将PRP作为代理任务进行预训练,保留网络主干部分作为下游目标任务的初始化模型,通过评估在目标任务中的性能来验证我们自监督方法的有效性。这里选择了action recognition和video retrieval作为目标任务,并在两种数据集UCF101和HMDB51上分别使用三种网络主干C3D,R3D,R(2+1)D进行验证。通过表1和表2可以看到相比之前的视频自监督方法,PRP在大部分测试中都取得了性能提升。
表1:action recognition在UCF101和HMDB51的性能
表2:video retrieval分别在UCF101和HMDB51上的性能
表征可视化
为了进一步理解网络在PRP自监督任务学习到的表征,我们对不同设置下的PPR进行预训练,将从网络主干部分输出的特征激活图可视化,如图4所示:
图4:特征激活图可视化
DP,GP(w/o MA),GP(w/ MA),DG-P(w/ MA)分别表示只有判别感知,只有生成感知(无motion attention),只有生成感知(有motion attention)以及完整的PRP。可以看到判别感知可以促使网络激活运动剧烈区域,一般包含主要的运动信息;生成感知可以促使网络激活前景附近的上下文区域,可以补充更多细节;结合motion attention的生成感知对前景的运动区域的激活得到增强;而最终结合所有设置的PRP则能够激活一个更加完整的前景运动区域。
总结
我们根据视频的多分辨率特性设计了一种关于播放速率感知的视频自监督任务,其中通过判别感知和生成感知两部分促进了网络对前景运动更全面的理解和对视频表征更完善的学习。最终我们对于不同的目标任务,在不同的数据集上使用不同的网络主干均验证我们方法的有效性。
作者介绍
姚远:国科大3年级在读博士生,主要研究方向深度特征学习、时空特征自监督学习。
刘畅:国科大5年级在读博士生,主要研究方向深度特征学习、时空特征自监督学习。
罗德昭:国科大2年级在读硕士生,主要研究方向深度特征学习、时空特征自监督学习。
周宇:中科院信工所副研究员,博士生导师,主要研究方向计算机视觉、目标识别与深度特征学习。
叶齐祥:国科大教授,博士生导师,主要研究方向视觉目标感知、弱监督视觉建模、深度特征学习。
登录查看更多
点赞并收藏
0
暂时没有读者
3
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
视频表征学习
关注
5
【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习
专知会员服务
27+阅读 · 2020年8月14日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
从多个自我监督任务中学习问题无关的语音表示,Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks
专知会员服务
16+阅读 · 2020年5月6日
【CVPR2020】从未标记的视频中学习视频对象分割,Learning Video Object Segmentation from Unlabeled Videos
专知会员服务
34+阅读 · 2020年3月12日
【自监督学习深度神经网络视觉特征学习综述论文】Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
专知会员服务
86+阅读 · 2020年3月1日
基于深度网络的自监督视觉特征学习综述,附24页论文下载
专知会员服务
65+阅读 · 2020年1月15日
【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读
专知会员服务
53+阅读 · 2019年12月22日
【斯坦福大学】对抗性表征主动学习,Adversarial Representation Active Learning
专知会员服务
44+阅读 · 2019年12月20日
【Google】视频诱导视觉不变性的自监督学习(Self-Supervised Learning of Video-Induced Visual Invariances),谷歌博士后研究员| Michael Tschannen等
专知会员服务
11+阅读 · 2019年12月8日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
已删除
将门创投
11+阅读 · 2019年8月13日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
51+阅读 · 2019年7月23日
最新《深度神经网络自监督视觉特征学习综述》论文(附24页全文下载)
专知
36+阅读 · 2019年2月20日
ResNet架构可逆!多大等提出性能优越的可逆残差网络
机器之心
5+阅读 · 2019年2月3日
CVPR 2018 | 无监督语义分割之全卷积域适应网络
极市平台
8+阅读 · 2018年6月28日
CVPR 2018 | 商汤科技Spotlight论文详解:极低延迟性的视频语义分割
商汤科技
4+阅读 · 2018年5月30日
CVPR 2018 | 商汤科技论文详解:基于空间特征调制的图像超分辨率
商汤科技
16+阅读 · 2018年5月27日
【深度】Google提出「自监督」表征学习方法,让智能体通过「观察」认识世界
GAN生成式对抗网络
7+阅读 · 2018年5月26日
CVPR 2018 | 伯克利等提出无监督特征学习新方法,代码已开源
AI前线
12+阅读 · 2018年5月13日
CVPR 2018 论文概述:有损压缩视频的多帧质量增强方法
极市平台
4+阅读 · 2018年3月19日
A Simple Framework for Contrastive Learning of Visual Representations
Arxiv
21+阅读 · 2020年2月13日
Relation-Aware Graph Attention Network for Visual Question Answering
Arxiv
7+阅读 · 2019年10月9日
Adversarial Representation Learning for Text-to-Image Matching
Arxiv
6+阅读 · 2019年8月28日
PPF-FoldNet: Unsupervised Learning of Rotation Invariant 3D Local Descriptors
Arxiv
9+阅读 · 2018年8月30日
Learning Visual Question Answering by Bootstrapping Hard Attention
Arxiv
4+阅读 · 2018年8月1日
Outline Objects using Deep Reinforcement Learning
Arxiv
9+阅读 · 2018年4月20日
Inductive Representation Learning on Large Graphs
Arxiv
3+阅读 · 2018年4月10日
Long-Term Visual Object Tracking Benchmark
Arxiv
3+阅读 · 2018年3月22日
Long-term Visual Localization using Semantically Segmented Images
Arxiv
7+阅读 · 2018年1月16日
Convolutional Sequence to Sequence Learning
Arxiv
4+阅读 · 2017年7月25日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
视频表征学习
表征学习
自监督学习
监督学习
监督
泛化性
相关VIP内容
【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习
专知会员服务
27+阅读 · 2020年8月14日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
从多个自我监督任务中学习问题无关的语音表示,Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks
专知会员服务
16+阅读 · 2020年5月6日
【CVPR2020】从未标记的视频中学习视频对象分割,Learning Video Object Segmentation from Unlabeled Videos
专知会员服务
34+阅读 · 2020年3月12日
【自监督学习深度神经网络视觉特征学习综述论文】Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
专知会员服务
86+阅读 · 2020年3月1日
基于深度网络的自监督视觉特征学习综述,附24页论文下载
专知会员服务
65+阅读 · 2020年1月15日
【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读
专知会员服务
53+阅读 · 2019年12月22日
【斯坦福大学】对抗性表征主动学习,Adversarial Representation Active Learning
专知会员服务
44+阅读 · 2019年12月20日
【Google】视频诱导视觉不变性的自监督学习(Self-Supervised Learning of Video-Induced Visual Invariances),谷歌博士后研究员| Michael Tschannen等
专知会员服务
11+阅读 · 2019年12月8日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
热门VIP内容
开通专知VIP会员 享更多权益服务
《支持 ML/AI 的下一代智能自主网络系统:性能提升与管理》177页
《飞行训练指导:夜间熟悉》152页
数据:联合作战的新弹药
《混合现实飞行模拟器中的夜视镜仿真:无缝集成真实世界》最新54页
相关资讯
已删除
将门创投
11+阅读 · 2019年8月13日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
51+阅读 · 2019年7月23日
最新《深度神经网络自监督视觉特征学习综述》论文(附24页全文下载)
专知
36+阅读 · 2019年2月20日
ResNet架构可逆!多大等提出性能优越的可逆残差网络
机器之心
5+阅读 · 2019年2月3日
CVPR 2018 | 无监督语义分割之全卷积域适应网络
极市平台
8+阅读 · 2018年6月28日
CVPR 2018 | 商汤科技Spotlight论文详解:极低延迟性的视频语义分割
商汤科技
4+阅读 · 2018年5月30日
CVPR 2018 | 商汤科技论文详解:基于空间特征调制的图像超分辨率
商汤科技
16+阅读 · 2018年5月27日
【深度】Google提出「自监督」表征学习方法,让智能体通过「观察」认识世界
GAN生成式对抗网络
7+阅读 · 2018年5月26日
CVPR 2018 | 伯克利等提出无监督特征学习新方法,代码已开源
AI前线
12+阅读 · 2018年5月13日
CVPR 2018 论文概述:有损压缩视频的多帧质量增强方法
极市平台
4+阅读 · 2018年3月19日
相关论文
A Simple Framework for Contrastive Learning of Visual Representations
Arxiv
21+阅读 · 2020年2月13日
Relation-Aware Graph Attention Network for Visual Question Answering
Arxiv
7+阅读 · 2019年10月9日
Adversarial Representation Learning for Text-to-Image Matching
Arxiv
6+阅读 · 2019年8月28日
PPF-FoldNet: Unsupervised Learning of Rotation Invariant 3D Local Descriptors
Arxiv
9+阅读 · 2018年8月30日
Learning Visual Question Answering by Bootstrapping Hard Attention
Arxiv
4+阅读 · 2018年8月1日
Outline Objects using Deep Reinforcement Learning
Arxiv
9+阅读 · 2018年4月20日
Inductive Representation Learning on Large Graphs
Arxiv
3+阅读 · 2018年4月10日
Long-Term Visual Object Tracking Benchmark
Arxiv
3+阅读 · 2018年3月22日
Long-term Visual Localization using Semantically Segmented Images
Arxiv
7+阅读 · 2018年1月16日
Convolutional Sequence to Sequence Learning
Arxiv
4+阅读 · 2017年7月25日
大家都在搜
壁画
MoE
大型语言模型
全面综述
无人机蜂群
RE-NET
智能推荐
大模型
无人艇
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top