通过视频着色进行自监督跟踪 - 专知

会员服务 ·

0

通过视频着色进行自监督跟踪

2018 年 7 月 11 日 谷歌开发者

文 / 机器感知研究员 Carl Vondrick

跟踪视频中的物体是计算机视觉领域的一个基本问题，对活动识别、物体交互或视频风格化等应用而言至关重要。不过，教会机器对物体进行视觉跟踪十分困难，这在一定程度上是因为此过程需要使用大量带标记的跟踪数据集进行训练，而大规模地标注在实际中并不可行。

在 “Tracking Emerges by Colorizing Videos” 一文中，我们介绍了一种卷积网络，这种网络可以对灰度视频着色，但被限定为仅从一个参考帧复制颜色。通过这种方式，网络可在没有监督的情况下自动学习对物体进行视觉跟踪。重要的是，尽管模型从未明确进行过跟踪训练，它仍然可以跟踪多个物体，跟踪被遮挡的物体并在物体发生变形时保持稳定，而不需要任何带标记的训练数据。

基于公开学术数据集 DAVIS 2017 的跟踪预测示例

在学习对视频着色之后

在没有监督的情况下出现了一种自动跟踪机制

我们在第一帧中指定感兴趣的区域（用不同颜色表示）

模型无需任何额外学习或监督即自动跟踪

学习对视频重新着色

我们假设颜色的时间一致性为教机器跟踪视频中的区域提供了大规模的优秀训练数据。显然，总有一些例外情况，即颜色不具备时间一致性（如突然开灯），但一般而言，颜色不会随着时间而变化。并且，大部分视频都包含颜色，这就提供了可扩展的自监督学习信号。我们先去掉视频的颜色，然后再添加着色步骤，因为视频中可能有多个物体颜色相同，而通过着色我们可以教机器跟踪特定的物体或区域。

为了训练系统，我们使用了大型公开数据集 Kinetics 中的视频，此数据集汇总了大量描述日常活动的视频。我们将除了第一帧以外的所有视频帧都转换为灰度图像，并训练一个卷积网络来预测后续帧中的原始颜色。我们期望模型学会跟踪区域，以准确恢复原始颜色。我们的主要观察结果是，跟踪物体着色这一需求使得自动学习物体跟踪模型成为可能。

我们使用 DAVIS 2017 数据集中的视频

来展示视频重新着色任务模型

接收一个彩色帧和一个灰度视频作为输入

然后预测视频其他帧的颜色

它学习从参考帧中复制颜色

这使得无需人工监督即可学习跟踪机制

学习复制单个参考帧的颜色要求模型学会内在地指向正确的区域以复制正确的颜色。这迫使模型学习一种可用于跟踪的明确机制。为了展示视频着色模型的工作原理，我们在下面显示了一些对 Kinetics 数据集中的视频进行着色预测的示例。

使用公开数据集 Kinetics 将着色参考帧

应用到输入视频后的预测颜色示例

尽管网络未使用真实标识进行训练，我们的模型还是能学会跟踪视频第一帧中指定的任何视觉区域。我们可以跟踪视频中的物体轮廓或单个点。唯一做出的改变是在视频中传播表示感兴趣区域的标签，而不是传播颜色。

分析跟踪器

由于模型是基于大量未标记的视频进行训练的，因此我们希望深入了解它学习的内容。下面的视频展示了一个标准的跟踪过程：通过主成分分析 (PCA) 将模型学到的嵌入投影到三维空间进行可视化，并做成 RGB 影片的形式。结果表明，学到的嵌入空间的最近邻往往会对应物体标识，即使经过变形或视角改变也是如此。

上面一行：DAVIS 2017 数据集中的视频

下面一行：对着色模型的内部嵌入进行可视化

在这个可视化中，相似的嵌入具有相似的颜色

这表明学到的嵌入按物体标识将像素分组

跟踪姿态

我们发现，在给定初始帧关键点的条件下，模型还可以跟踪人类姿态。下面所示为基于公开学术数据集 JHMDB 的结果，其中模型跟踪的是人类关节骨架。

使用模型跟踪人类骨架运动的示例

在本例中，第一帧的输入是人类姿态，

后续运动由模型自动跟踪

即使模型从未明确进行过此项任务的训练

它依然能够跟踪人类姿态

虽然着色模型并没有超越强监督模型，但它可以学习跟踪视频分割和人类姿态，且超越了基于光流的最新方法。按运动类型细分性能的结果表明，我们的跟踪器在许多自然复杂场景（例如动态背景、快速运动和遮挡）下比光流方法更加强大。

未来工作

我们的研究结果表明，视频着色提供的信号可以用于学习跟踪视频中的物体，且无需监督。此外，我们发现系统中出现的失败与视频着色失败有关，这表明进一步优化视频着色模型可以改善自监督跟踪。

登录查看更多

3

相关内容

视觉跟踪

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

专知会员服务

168+阅读 · 2020年6月30日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

专知会员服务

165+阅读 · 2020年4月19日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

专知会员服务

20+阅读 · 2020年4月4日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

极市平台

11+阅读 · 2019年5月5日

检测与识别人与目标之间的互动

检测与识别人与目标之间的互动

极市平台

5+阅读 · 2018年10月12日

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

微软研究院AI头条

7+阅读 · 2018年9月13日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

【泡泡一分钟】端到端的弱监督语义对齐

【泡泡一分钟】端到端的弱监督语义对齐

泡泡机器人SLAM

53+阅读 · 2018年4月5日

一文带你入门视频目标分割（附数据集）

一文带你入门视频目标分割（附数据集）

THU数据派

19+阅读 · 2017年10月10日

入门 | 一文概览视频目标分割

入门 | 一文概览视频目标分割

机器之心

10+阅读 · 2017年10月6日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

8+阅读 · 2019年5月20日

Joint Monocular 3D Vehicle Detection and Tracking

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Phrase-Based & Neural Unsupervised Machine Translation

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

9+阅读 · 2018年8月13日

Learning Blind Video Temporal Consistency

Learning Blind Video Temporal Consistency

Arxiv

3+阅读 · 2018年8月1日

Video Object Detection with an Aligned Spatial-Temporal Memory

Video Object Detection with an Aligned Spatial-Temporal Memory

Arxiv

4+阅读 · 2018年7月27日

Unsupervised Neural Machine Translation with Weight Sharing

Arxiv

6+阅读 · 2018年4月24日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Detect-and-Track: Efficient Pose Estimation in Videos

Arxiv

7+阅读 · 2017年12月26日

VIP会员

相关主题

相关VIP内容

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

专知会员服务

168+阅读 · 2020年6月30日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

专知会员服务

165+阅读 · 2020年4月19日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

专知会员服务

20+阅读 · 2020年4月4日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

相关资讯

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

极市平台

11+阅读 · 2019年5月5日

检测与识别人与目标之间的互动

检测与识别人与目标之间的互动

极市平台

5+阅读 · 2018年10月12日

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

微软研究院AI头条

7+阅读 · 2018年9月13日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

【泡泡一分钟】端到端的弱监督语义对齐

【泡泡一分钟】端到端的弱监督语义对齐

泡泡机器人SLAM

53+阅读 · 2018年4月5日

一文带你入门视频目标分割（附数据集）

一文带你入门视频目标分割（附数据集）

THU数据派

19+阅读 · 2017年10月10日

入门 | 一文概览视频目标分割

入门 | 一文概览视频目标分割

机器之心

10+阅读 · 2017年10月6日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

相关论文

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

8+阅读 · 2019年5月20日

Joint Monocular 3D Vehicle Detection and Tracking

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Phrase-Based & Neural Unsupervised Machine Translation

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

9+阅读 · 2018年8月13日

Learning Blind Video Temporal Consistency

Learning Blind Video Temporal Consistency

Arxiv

3+阅读 · 2018年8月1日

Video Object Detection with an Aligned Spatial-Temporal Memory

Video Object Detection with an Aligned Spatial-Temporal Memory

Arxiv

4+阅读 · 2018年7月27日

Unsupervised Neural Machine Translation with Weight Sharing

Arxiv

6+阅读 · 2018年4月24日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Detect-and-Track: Efficient Pose Estimation in Videos

Arxiv

7+阅读 · 2017年12月26日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员