【CVPR Oral】视频跟踪新思路,完全无需手工标注

2019 年 4 月 21 日 新智元




  新智元推荐   

来源:知乎专栏

作者:Xiaolong Wang

【新智元导读】本文介绍一篇CVPR 2019 Oral的工作,作者来自CMU、UC伯克利,论文提出采用无监督学习的创新视频跟踪思路,得到了优越的结果。


本文主要介绍 CVPR 2019 (Oral) 的工作:

  • Xiaolong Wang*, Allan Jabri* and Alexei A. Efros. Learning Correspondence from the Cycle-consistency of Time.

  • Paper: Learning Correspondence from the Cycle-Consistency of Time

  • Code: xiaolonw/TimeCycle

  • Slides (百度网盘): https://pan.baidu.com/s/1prNthUokiqRPELs8J4O-vQ 提取码: es86


我们这个工作主要是给 tracking 和 optical flow 提供一种新的思路。我们把两者联系并且统一起来称为 correspondence in time。而这个工作的目标就是训练一个神经网络,使得它能帮助我们获得在 video 中帧与帧之间的 semi-dense correspondence


和以往的方法不一样,我们不需要人为的数据标注也不需要 synthetic data 进行训练。这个工作采用的是无监督学习 (self-supervised /unsupervised learning),而且训练网络的方法能被应用到任意的 video 上面。


首先 show 一下结果,我们训练出来的网络可以用来做以下的 human part segment tracking (没有经过任何用 segmentation training 和 fine-tuning)。


视频分割跟踪


在介绍我们的方法之前,先讨论一下目前找 correspondence 的方法:


Related Work 1: Visual Tracking


Visual Tracking 能够获得 box-level correspondence。但是目前训练神经网络做 tracking 需要标注视频的每一帧进行训练,这样大大限制了训练样本的数量。



Related Work 2: Optical Flow Estimation


Optical Flow Estimation 能够获得 pixel-level correspondence。但通常训练神经网络计算 optical flow 通常需要在 synthetic dataset 上进行,使得训练出来的网络很难泛化到真实数据中 (generalization to real data)。而且 optical flow 对于局部的变化过于敏感,很难处理长距离或者 large motion 的视频。


 

其实 Visual Tracking 和 Optical Flow Estimation 之间非常相关,但是似乎在近年来深度学习之后这两个领域变得互相独立。我们这篇文章希望让大家能把两者联系起来思考。


本文的方法


我们这里提出的其实是介于 tracking 与 optical flow 的中间的 mid-level correspondence 或者说是 semi-dense correspondence。正因为我们是在 mid-level 上算 correspondence,这使得我们对 pixel 上的局部变化变得更加 robust,能在一定程度上 encode invariance,从而让我们可以做 long-range tracking 和处理 large object displacement。


我们在 deep feature 上计算 semi-dense correspondence。如下图,对于相邻两帧,我们首先抽取 deep feature (大概 30x30 resolution)。对于在 t-1 帧的一个格子,我们通过算 nearest neighbor 找到在 t 帧最相似的格子。下图箭头两端代表了其中一个 correspondence。


 

以下是我们训练这个 deep network 的方法,这里采用的是无监督学习(self-supervised/unsupervised learning):既是学习过程中不需要任何的人为的标注


如下图所示,假设我们用这个 network 进行 tracking。在最后一帧上,我们首先随机选一个起 bounding box,然后对这个 bounding box 进行 backward tracking(蓝色箭头),接着对在第一帧的结果进行 forward tracking(红色箭头)。那么 initial box 和最后的 tracking box 之间的 error(黄色箭头)就会作为我们训练 network 的 supervisory signal。我们把这个 signal 称为 Cycle-Consistency Loss。


 Cycle-Consistency Loss


在训练的过程中,我们把 error 沿着 cycle 来传递(图中用黄色虚线表达):


 

在训练过程的不同迭代次数中,cycle 产生如下图的变化。可以看见随着迭代次数的变化,tracking 也逐渐变得越来越好:


 Changes of Cycles


我们的结果


我们训练出来的网络能够帮助我们找 correspondence,并应用在各种的 Tracking Tasks。


我们在 VLOG 数据集 (https://github.com/xiaolonw/TimeCycle/blob/master/DATASET.md) 上面进行 unsupervised learning。在训练之后的网络我们可以直接应用在以下不同的 tracking tasks,不需要在目标数据集上做任何的 training/fine-tuning。


除了开篇提到的 human part segments tracking,我们还可以完成以下 tasks:


1. Tracking Object Mask


 


2. Tracking Pose

 

 

3. Tracking Texture


在这个 task 里面,我在第一帧画了一个彩虹 texture,然后用我们的 correspondence 可以把彩虹 texture 一直传递下去。



4. Optical Flow


我们还能将 correspondence visualize 出来,结果和 optical flow 类似。

 



总结


我们希望这个工作能将 tracking 和 optical flow 联系起来。针对 tracking tasks, 我们能突破有限的 human annotation 的限制,提供一种新的训练 tracker 的思路。我们还希望能够提供一种新的 video 里面,或者有时序关系的数据中的无监督学习的方法。在未来可以用这种 cycle-consistency in time 来作为一种 supervisory signal 帮助其他任务。


论文地址:

https://arxiv.org/abs/1903.07593


(本文经授权转载自知乎,作者Xiaolong Wang,原文链接:https://zhuanlan.zhihu.com/p/61607755)

反应式机器。代表性范例:深蓝。能够识别棋盘上的形势,并做出预测,但没有记忆。

 

有限记忆。能利用过去的记忆为未来决策提供帮助。代表性范例:自动驾驶

 

意志理论:能够理解影响自身决策的观点、欲求和目的。目前这类AI尚不存在。

 

自我意识:具有自我意识的机器,能够理解自身目前的状态,并能利用现有信息推测他人的感觉。目前这类AI也不存在。

 

AI技术应用举例:

 

自动化机器人:对机器进行编程,使其高质量地完成一般由人完成的重复性任务,同时具备对不同任务条件的适应性。

 

机器视觉:让计算机能够“看见”的技术,利用摄像头捕获并分析视觉信息,完成模-数转换与数字信号处理。

 

机器学习:让计算机在未经编程的情况下运行。机器学习的子领域之一是深度学习,其目标是实现自动化的预测性分析。

 

自然语言处理:利用计算机程序处理人类语言。垃圾邮件检测、文本翻译、语义分析和语音识别等都属于该领域。

 

机器人技术:机器人能够比人类更精确、更持久地完成困难的重复性任务。


 

全球AI技术竞争中最具优势的10大企业



1、DeepMind:目前居于AI研究企业第一位

2、谷歌:旗下设谷歌大脑团队,在每个可能的领域聚焦长期AI研发。

3、Facebook:主要关注语言领域的问题,如动态记忆,问答系统开发等。

4、OpenAI:团队规模虽然不大,配置属于全明星级别。

5、百度:在语音交互、自动驾驶等领域表现出色。

6、微软:在AI领域耕耘多年,目前聚焦实时翻译。

7、苹果:正在研发面部识别技术,分析用户面对设备上出现广告的面部反应

8、IBM:利用AI技术从照片、视频、语音和文本中提取语义。

9、亚马逊:目前多个部门业务向AI倾斜,比如无人商店、无人机货物配送,以及Alexa语音助理等业务。

10、英伟达:机器学习计算资源和硬件领域的领军者。

 

全球10大AI国家



1、美国:每年有100亿风投资金进入AI领域

2、中国:在过去5年中,中国与AI相关的专利数量上涨了190%。

3、日本:制造业部门的自动化程度可能高达71%。

4、英国:英国政府每年资助1000位AI专业的博士

5、德国:首都柏林的AI初创公司数量位居世界第四。

6、法国:到2022年,法国政府对AI行业的投资将达18亿美元。

7、加拿大:正在兴建价值1.27亿美元的AI研究设施。

8、俄罗斯:到2025年,俄罗斯30%的军事装备将实现机器人化。

9、以色列:自2014年以来,AI初创公司的数量增长了3倍。

10、爱沙尼亚:在处理与解决与AI相关的法律问题上走在世界前列。

 

AI 的未来


全面自动化的交通:AI技术将让未来的交通走向全面智能化和自动化。

赛博技术:AI和机器人技术将成功助我们超越认知和身体上的极限。


代替人类从事危险职业:机器人和无人机将代替我们完成炸弹拆除等危险任务,我们不必为了完成这些任务冒上生命危险。


解决气候变化问题:有朝一日,AI可以利用大数据获得判断趋势的能力,并利用这些信息解决气候变化这样的重大问题。


探索新的边界:机器人可以帮我们进一步探索太空和海洋。


预测未来:机器学习利用过去的信息预测未来,谁将开启一段浪漫之旅?谁将面临离婚等等。


原信息图及更多内容:

https://www.visualcapitalist.com/ai-revolution-infographic/

https://techjury.net/stats-about/ai/



新智元春季招聘开启,一起弄潮AI之巅!

岗位详情请戳:


【加入社群】


新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号:aiera2015_2   入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。

登录查看更多
19

相关内容

[Xiaolong Wang](https://xiaolonw.github.io/),将于2020年秋天加入圣地亚哥圣地亚哥分校(ECE)部门担任助理教授。 目前是加州大学伯克利分校的博士后,与Alexei Efros和Trevor Darrell一起工作。 在卡内基梅隆大学(Carnegie Mellon University)获得机器人学博士学位,博导是Abhinav Gupta。
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
109+阅读 · 2020年3月12日
专知会员服务
41+阅读 · 2020年2月20日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
CVPR2019 | SiamMask:视频跟踪最高精度
极市平台
21+阅读 · 2019年3月8日
Arxiv
4+阅读 · 2020年3月27日
Arxiv
6+阅读 · 2018年2月8日
Arxiv
5+阅读 · 2016年10月24日
VIP会员
相关VIP内容
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
109+阅读 · 2020年3月12日
专知会员服务
41+阅读 · 2020年2月20日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
Top
微信扫码咨询专知VIP会员