VITA: 通过对象调控协会进行视频实例分切 (VITA: Video Instance Segmentation via Object Token Association) - 专知论文

会员服务 ·

0

Backbone · 示例 · 可理解性 · 词元分析器 · INFORMS ·

2022 年 6 月 9 日

VITA: Video Instance Segmentation via Object Token Association

翻译：VITA: 通过对象调控协会进行视频实例分切

Miran Heo,Sukjun Hwang,Seoung Wug Oh,Joon-Young Lee,Seon Joo Kim

We introduce a novel paradigm for offline Video Instance Segmentation (VIS), based on the hypothesis that explicit object-oriented information can be a strong clue for understanding the context of the entire sequence. To this end, we propose VITA, a simple structure built on top of an off-the-shelf Transformer-based image instance segmentation model. Specifically, we use an image object detector as a means of distilling object-specific contexts into object tokens. VITA accomplishes video-level understanding by associating frame-level object tokens without using spatio-temporal backbone features. By effectively building relationships between objects using the condensed information, VITA achieves the state-of-the-art on VIS benchmarks with a ResNet-50 backbone: 49.8 AP, 45.7 AP on YouTube-VIS 2019 & 2021 and 19.6 AP on OVIS. Moreover, thanks to its object token-based structure that is disjoint from the backbone features, VITA shows several practical advantages that previous offline VIS methods have not explored - handling long and high-resolution videos with a common GPU and freezing a frame-level detector trained on image domain. Code will be made available at https://github.com/sukjunhwang/VITA.

翻译：我们引入了离线视频实例分割的新模式(VIS),其依据的假设是,清晰的物体导向信息可以成为理解整个序列背景的有力线索。为此,我们提议VITA,这是在现成的变异器图像实例分割模型之上建建的简单结构。具体地说,我们使用图像对象探测器作为将特定对象背景蒸馏成目标标志的手段。VITA通过将框架级物体符号链接起来而不使用spatio-时空主干线特征实现视频级理解。通过在使用压缩信息的目标之间建立有效关系,VITA实现了以ResNet-50主干线(ResNet-50主干线):49.8 AP、45.7 AP 在YouTube-VIS 2019 & 2021 和 19.6 AP OVIS。此外,由于基于目标的象征性结构与主干特征脱节,VITA显示先前的离线式VIS方法没有探索的一些实际优势。通过使用普通的GPU和冻结框架/FANWA标准处理长高分辨率视频。

0

相关内容

Backbone

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

【ICIG2021】Latest News & Announcements of the Tutorial

【ICIG2021】Latest News & Announcements of the Tutorial

中国图象图形学学会CSIG

3+阅读 · 2021年12月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

重组人磷脂酶D2干预哮喘中Treg特征的研究

国家自然科学基金

0+阅读 · 2016年12月31日

茶树中EGCG-O-甲基转移酶基因的转录调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

早期生长反应因子Egr-1调控气道粘液蛋白MUC5AC的作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

Riemann-Hilbert方法及若干相关问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Fucí意义下的跨共振的Sturm-Liouville问题

国家自然科学基金

0+阅读 · 2012年12月31日

磷脂酶D在肠癌中的激活及促进肠癌增殖转移的机制

国家自然科学基金

0+阅读 · 2011年12月31日

增强现实中多目标3D跟踪定位和WH-SIFT特征识别方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Prokineticin 2 调节SCN神经元的电生理活动及昼夜节律行为

国家自然科学基金

0+阅读 · 2009年12月31日

Erbin在细胞分裂周期中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

针对F-和CN-离子的水溶性双光子荧光探针的设计与合成

国家自然科学基金

0+阅读 · 2008年12月31日

Exploring the Semi-supervised Video Object Segmentation Problem from a Cyclic Perspective

Arxiv

0+阅读 · 2022年7月25日

Patchwork++: Fast and Robust Ground Segmentation Solving Partial Under-Segmentation Using 3D Point Cloud

Arxiv

0+阅读 · 2022年7月25日

HM: Hybrid Masking for Few-Shot Segmentation

Arxiv

0+阅读 · 2022年7月25日

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation

Arxiv

0+阅读 · 2022年7月25日

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

Arxiv

0+阅读 · 2022年7月22日

Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation

Arxiv

0+阅读 · 2022年7月22日

Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced Data

Arxiv

0+阅读 · 2022年7月22日

In Defense of Online Models for Video Instance Segmentation

Arxiv

0+阅读 · 2022年7月21日

SeqFormer: Sequential Transformer for Video Instance Segmentation

Arxiv

0+阅读 · 2022年7月21日

An Efficient Spatio-Temporal Pyramid Transformer for Action Detection

Arxiv

0+阅读 · 2022年7月21日

VIP会员

文章信息

相关主题

词元分析器

相关VIP内容

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

【ICIG2021】Latest News & Announcements of the Tutorial

【ICIG2021】Latest News & Announcements of the Tutorial

中国图象图形学学会CSIG

3+阅读 · 2021年12月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

相关论文

Exploring the Semi-supervised Video Object Segmentation Problem from a Cyclic Perspective

Arxiv

0+阅读 · 2022年7月25日

Patchwork++: Fast and Robust Ground Segmentation Solving Partial Under-Segmentation Using 3D Point Cloud

Arxiv

0+阅读 · 2022年7月25日

HM: Hybrid Masking for Few-Shot Segmentation

Arxiv

0+阅读 · 2022年7月25日

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation

Arxiv

0+阅读 · 2022年7月25日

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

Arxiv

0+阅读 · 2022年7月22日

Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot Segmentation

Arxiv

0+阅读 · 2022年7月22日

Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced Data

Arxiv

0+阅读 · 2022年7月22日

In Defense of Online Models for Video Instance Segmentation

Arxiv

0+阅读 · 2022年7月21日

SeqFormer: Sequential Transformer for Video Instance Segmentation

Arxiv

0+阅读 · 2022年7月21日

An Efficient Spatio-Temporal Pyramid Transformer for Action Detection

Arxiv

0+阅读 · 2022年7月21日

相关基金

重组人磷脂酶D2干预哮喘中Treg特征的研究

国家自然科学基金

0+阅读 · 2016年12月31日

茶树中EGCG-O-甲基转移酶基因的转录调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

早期生长反应因子Egr-1调控气道粘液蛋白MUC5AC的作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

Riemann-Hilbert方法及若干相关问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Fucí意义下的跨共振的Sturm-Liouville问题

国家自然科学基金

0+阅读 · 2012年12月31日

磷脂酶D在肠癌中的激活及促进肠癌增殖转移的机制

国家自然科学基金

0+阅读 · 2011年12月31日

增强现实中多目标3D跟踪定位和WH-SIFT特征识别方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Prokineticin 2 调节SCN神经元的电生理活动及昼夜节律行为

国家自然科学基金

0+阅读 · 2009年12月31日

Erbin在细胞分裂周期中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

针对F-和CN-离子的水溶性双光子荧光探针的设计与合成

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员