NeurIPS 21 Spotlight | PCAN: 高效时序建模, 提升多目标追踪与分割性能

2021 年 12 月 19 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨leike.kl@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/445457150
编辑丨极市平台

极市导读

 

本文为NeurIPS 2021接收的spotlight工作—PCAN的介绍,并同时分享了作者对自动驾驶场景中高效快速地进行时序建模和多物体追踪分割的思考。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本文是对我们NeurIPS 2021接收的spotlight文章 Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation- PCAN的介绍, 同时也分享一下我们对自动驾驶场景中高效快速地进行时序建模和多物体追踪分割的思考。此外,深度学习模型的训练和评估离不开大型数据集的支撑,欢迎大家关注由ETH Zurich & UC Berkeley推出的学术界最大规模的自动驾驶多目标跟踪和分割(MOTS)数据集 - BDD100K Tracking and Segmentation (BDD100K, Overview - EvalAI)。BDD Tracking Segmentation 数据集的规模是KITTI-MOTS的6倍 (3,0817 vs 5,027 training images, 480K vs 26K instance masks), 标注物体数量是KITTI的近20倍,并覆盖白天、夜间、 雨雪等更为丰富真实的自动驾驶场景。

Prediction results of PCAN on BDD100K - Day
Prediction results of PCAN on BDD100K - Night
论文地址:
https://arxiv.org/abs/2106.11958

项目主页及视频资源:

https://www.vis.xyz/pub/pcan/

开源代码及模型,欢迎大家star:

https://github.com/SysCV/pcan

Bilibili视频:

https://www.bilibili.com/video/BV1Rb4y1i7zS?spm_id_from=333.999.0.0

引言

【背景】 多目标跟踪和分割 (MOTS),是自动驾驶和视频分析等许多实际应用中的一个重要问题。该任务需要将视频中给定的类别的所有物体进行检测、分类、跟踪和像素级分割。在自动驾驶场景中,复杂的路况、市区内密集且相似的车辆和行人、以及对低功耗低延时(low computation & low memory cost & online)的预测需求又给这一任务带来了新的挑战。由于引入了大规模数据集,如BDD100K、KITTI等作为深度学习模型训练和测试基准,对 MOTS/VIS 的研究兴趣正迅速增长。

【问题】 MOTS 的大部分online方法(MaskTrack R-CNN、SipMask等)主要遵循基于检测的跟踪范式(tracking-by-detection paradigm)。首先在单张图片内检测和分割对象,然后是帧之间的关联。尽管这些方法已取得较好的结果,但在对时序建模上仅限于物体关联阶段,并且仅在两个相邻帧之间。另一方面,时间维度包含关于场景的丰富信息,同一物体的不同时间下多个角度的视图可以提高预测的物体分割、定位和类别的质量。然而,高效地利用历史信息(memory information)仍然是一个挑战。虽然基于注意力机制的时序建模方法(包含Self-Attention, Non-local Attention和Transformer等)已应用于视频处理,但它们通常直接对高分辨率的深度特征图进行操作。长时间序列上的密集的像素级注意力操作会产生对长度的二次复杂性(quadratic complexity),进一步带来巨大的计算负担和GPU内存消耗 (例如VisTR等),也极大地限制了它们的实际应用。

【成果】 PCAN 提出了一种简单高效地利用视频时序信息的机制, 通过对目标物体及过去帧的外观特征做高斯混合建模,得到数量较少且低秩(sparse and low-rank)的representative mixture prototypes (可以理解为多个不同的cluster centers), 实现了对历史信息(memory bank)的压缩。这一操作在降低attention运算复杂度和内存需求的同时, 也提高了视频物体分割的质量和追踪的稳定性。PCAN包括帧级(frame-level module)和实例级(instance-level module)两个模块的prototypical cross-attention,前者重构过去帧的深度特征并将其与当前帧对齐,而后者聚焦于视频中的被追踪物体。为了增强对物体外观随时间变化的鲁棒性,PCAN 通过对比学习(contrastive learning)的机制分别使用foreground/positive 和 background/negative prototypes (前景和背景原型)来进一步表示每个对象实例,并且将这些prototypes以在线方式传播更新(online updating)。由于每个实例或帧的prototypes数量有限,PCAN 在视频中具有时间线性复杂度的高效地执行远程特征聚合和传播。

方法概述

【PCAN的结构框架】

PCAN首先将历史信息(memory bank)中的高分辨率( )特征压缩到帧级和实例级的原型(prototypes)中,然后通过prototypical cross-attention操作,从由prototypes组成的space-time memory bank中去提取和利用过去帧中包含的丰富的appearance, texture and shape information等等。

Traditional cross-attention in space-time

Prototypical cross-attention in space-time

Memory bank中prototypes的数量 ,这有效地避免了对整个高分辨率的历史特征做逐像素密集的attention操作。PCAN采用高斯混合模型(Gaussian Mixture Models, GMM)来进行无监督特征聚类,并选取EM(Expectation-Maximization)迭代算法的得到的高斯分布拟合聚类中心作为prototypes。其中,每个像素特征点到prototype中心 的距离定义为 。更为详细的公式讲解请参考我们的文章。

PCAN Framework- Overview

Frame-level PCAN】对于memory bank中的帧特征,我们首先进行基于GMM的聚类(高斯分布拟合)以获得key 和value prototypes,并根据当前帧的产生的key根据cross-attention weights将其低秩重建。

Reconstruct frame feature based on prototypes and current frame.

重建的特征 不仅与当前帧 对齐,还通过有限数量的高斯分布拟合去除了特征中冗余信息(noise reduced),在保持像素点特征空间差异的同时,相似点间的内部差异得到进一步缩小。随后,重建特征与当前帧特征做加权融合,产生的新时序特征用于后续MOTS中的分类,检测,分割和追踪等多个子任务。

Overview of our frame-level prototypical cross-attention

Instance-level PCAN】对于MOTS中感兴趣追踪的物体,我们进一步根据初始的mask和bounding box对物体做前后背景的区分,前景(黄色区域)建模为positive instance prototypes,背景建模(蓝色区域)为negative prototypes。这些instance specific的prototypes随着时间不断更新,更新机制采用滑动平均来更新,类似于LSTM中的hidden state。在第 帧时,这些positive和negative的prototypes分别产生不同的attention maps,从中我们也能看出不同prototype的关注代表区域。最后我们将初始的物体mask、产生的instance attention map、以及融合时序新的frame feature concat在一起,通过一个简单的分割FCN网络得到最终的mask预测。

Updating instance prototypes with time
Our instance-level prototypical attention with foreground and background prototypes and temporal propagation.

实验

PCAN作为一个online method在两个最大规模的MOTS数据集BDD100K和Youtube-VIS上都取得了领先性能。

Comparison on the BDD100K segmentation tracking validation set.
Comparison on the Youtube-VIS validation set.

PCAN在Youtube-VIS的性能随着memory tube length和prototype数量的变化,从中可看出长时序建模和在一定范围内增多prototype数量的带来的性能改善。

Effect of long-term temporal information and prototypes clustering

Prototypical Cross-Attention Visualization

Instance-level】对红色虚线框中的汽车的instance attention可视化。我们选择前四个前景/背景原型作为示例,其中每个都专注于特定的汽车子区域,例如第一个prototype关注于车头的位置,并且这一attention 分布随着时间的推移具有隐式无监督一致性。

Instance cross-attention maps visualization for the car specified by the red dotted bounding.

对红色虚线框中的行人的instance attention可视化:

Prototypical instance cross-attention maps for the pedestrian in the red dotted bounding box.

Frame-level】对整张图frame-level的可视化,其中我们随机选择了8个frame prototypes并在图像上显示了它们的注意力分布。显然,每个frame prototype都学会对应图像的一些语义概念,涵盖前景和背景区域,例如人、滑板、雨伞和网球拍等等,这些都是通过无监督聚类所学习到的。

Frame-level prototypical cross-attention maps of random frame prototypes for visualization.

BDD100k Instance Segmentation Tracking 竞赛

BDD100K Competition

BDD100K Dataset:

www.bdd100k.com/

BDD100K Tracking & Segmentation Learderboard:

https://eval.ai/web/challenges/challenge-page/1295/overview

最后也欢迎大家关注正在进行的BDD100K Instance Segmentation Tracking 竞赛。如果大家觉得文章内容有帮助,欢迎大家转发,关注我们的工作,star开源的代码!

参考

  1. BDD100K: BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning
  2. Non-local Neural Networks: https://arxiv.org/abs/1711.07971
  3. EMANet: Expectation-Maximization Attention Networks for Semantic Segmentation
  4. KITTI MOTS: MOTS: Multi-Object Tracking and Segmentation
  5. Space-Time Memory Networks: [https://arxiv.org/abs/1904.00607]

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取 最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载~


极市干货
课程/比赛: 珠港澳人工智能算法大赛 保姆级零基础人工智能教程
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~



觉得有用麻烦给个在看啦~   
登录查看更多
0

相关内容

CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
17+阅读 · 2022年4月18日
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
16+阅读 · 2021年5月23日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
15+阅读 · 2021年1月19日
NeurIPS 2021 | 物体检测与分割的零标签视觉学习
微软研究院AI头条
0+阅读 · 2021年12月1日
一种小目标检测中有效的数据增强方法
极市平台
119+阅读 · 2019年3月23日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
13+阅读 · 2018年9月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
12+阅读 · 2021年11月1日
Arxiv
19+阅读 · 2021年2月4日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
17+阅读 · 2022年4月18日
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
16+阅读 · 2021年5月23日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
15+阅读 · 2021年1月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员