Tube-Link: 一个用于通用视频分割的灵活交叉管道基线 (Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation) - 专知论文

会员服务 ·

0

基准 · Performer · 边缘化 · Boosting（一种模型训练加速方式） · 判别器 ·

2023 年 3 月 22 日

Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation

翻译：Tube-Link: 一个用于通用视频分割的灵活交叉管道基线

Xiangtai Li,Haobo Yuan,Wenwei Zhang,Guangliang Cheng,Jiangmiao Pang,Chen Change Loy

from arxiv, Project page: https://github.com/lxtGH/Tube-Link

The goal of video segmentation is to accurately segment and track every pixel in diverse scenarios. In this paper, we present Tube-Link, a versatile framework that addresses multiple core tasks of video segmentation with a unified architecture. Our framework is a near-online approach that takes a short subclip as input and outputs the corresponding spatial-temporal tube masks. To enhance the modeling of cross-tube relationships, we propose an effective way to perform tube-level linking via attention along the queries. In addition, we introduce temporal contrastive learning to instance-wise discriminative features for tube-level association. Our approach offers flexibility and efficiency for both short and long video inputs, as the length of each subclip can be varied according to the needs of datasets or scenarios. Tube-Link outperforms existing specialized architectures by a significant margin on five video segmentation datasets. Specifically, it achieves almost 13% relative improvements on VIPSeg and 4% improvements on KITTI-STEP over the strong baseline Video K-Net. When using a ResNet50 backbone on Youtube-VIS-2019 and 2021, Tube-Link boosts IDOL by 3% and 4%, respectively. Code will be available.

翻译：本文旨在准确分割和跟踪不同场景中的每个像素，为此我们提出了 Tube-Link，这是一个多才多艺的框架，集成了视频分割的多个核心任务。我们的框架是一种近似在线的方法，它以短小的子剪辑为输入，输出相应的时空管道掩模。为了增强交叉管道的建模能力，我们提出了一种有效的通过注意力沿查询进行管道级别链接的方法。此外，我们引入了时间对比学习来实现管道级别关联的实例鉴别特征。我们的方法提供了对短视频输入和长视频输入的灵活性和效率，因为每个子剪辑的长度可以根据数据集或场景的需求进行变化。Tube-Link 在五个视频分割数据集上的表现优于现有的专业架构。特别地，在 VIPSeg 上，相对于强大的基线 Video K-Net，它提高了近 13% 的相对改进，并在 KITTI-STEP 上提高了 4%。在使用 ResNet50 后端的 Youtube-VIS-2019 和 2021 上，Tube-Link 分别将 IDOL 提高了 3% 和 4%。代码将会公开。

0

相关内容

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

近期必读的8篇 AAAI 2020【图神经网络（GNN）】相关论文

近期必读的8篇 AAAI 2020【图神经网络（GNN）】相关论文

专知会员服务

77+阅读 · 2020年1月15日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

微气泡（群）生成的介尺度机理及工业微气泡发生器科学基础

国家自然科学基金

0+阅读 · 2015年12月31日

瘢痕疙瘩中DAB-1抑制E3连接酶SIAH1对TIEG1泛素化介导TGF-β/Smads信号通路的研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模定制下基于可适应性重构的产品平台规划研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于介电弹性体驱动的MRI相容操作手系统模型及控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

超高分辨率、超大动态范围光纤传感通用测试系统

国家自然科学基金

0+阅读 · 2012年12月31日

面向无人驾驶汽车的视觉道路环境感知算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

液膜晶化制备分子筛膜胶囊催化剂

国家自然科学基金

0+阅读 · 2011年12月31日

近日节律与代谢疾病

国家自然科学基金

0+阅读 · 2011年12月31日

管道支持的无线移动传感器网络部署和调度研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于学习的视频关注计算及其在互动视频技术中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

Configurable Spatial-Temporal Hierarchical Analysis for Flexible Video Anomaly Detection

Arxiv

0+阅读 · 2023年5月12日

A Correct-and-Certify Approach to Self-Supervise Object Pose Estimators via Ensemble Self-Training

Arxiv

0+阅读 · 2023年5月11日

TarViS: A Unified Approach for Target-based Video Segmentation

Arxiv

0+阅读 · 2023年5月10日

Few-shot Action Recognition via Intra- and Inter-Video Information Maximization

Arxiv

0+阅读 · 2023年5月10日

Uncertainty-Aware Semi-Supervised Learning for Prostate MRI Zonal Segmentation

Arxiv

0+阅读 · 2023年5月10日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Contrastive learning of global and local features for medical image segmentation with limited annotations

Arxiv

19+阅读 · 2020年6月18日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

文章信息

相关主题

Boosting（一种模型训练加速方式）

相关VIP内容

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

近期必读的8篇 AAAI 2020【图神经网络（GNN）】相关论文

近期必读的8篇 AAAI 2020【图神经网络（GNN）】相关论文

专知会员服务

77+阅读 · 2020年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

【论文推荐】最新九篇自动问答相关论文—可解释推理网络、上下文知识图谱嵌入、注意力RNN、Multi-Cast注意力网络

专知

15+阅读 · 2018年6月29日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

相关论文

Configurable Spatial-Temporal Hierarchical Analysis for Flexible Video Anomaly Detection

Arxiv

0+阅读 · 2023年5月12日

A Correct-and-Certify Approach to Self-Supervise Object Pose Estimators via Ensemble Self-Training

Arxiv

0+阅读 · 2023年5月11日

TarViS: A Unified Approach for Target-based Video Segmentation

Arxiv

0+阅读 · 2023年5月10日

Few-shot Action Recognition via Intra- and Inter-Video Information Maximization

Arxiv

0+阅读 · 2023年5月10日

Uncertainty-Aware Semi-Supervised Learning for Prostate MRI Zonal Segmentation

Arxiv

0+阅读 · 2023年5月10日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Contrastive learning of global and local features for medical image segmentation with limited annotations

Arxiv

19+阅读 · 2020年6月18日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

相关基金

微气泡（群）生成的介尺度机理及工业微气泡发生器科学基础

国家自然科学基金

0+阅读 · 2015年12月31日

瘢痕疙瘩中DAB-1抑制E3连接酶SIAH1对TIEG1泛素化介导TGF-β/Smads信号通路的研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模定制下基于可适应性重构的产品平台规划研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于介电弹性体驱动的MRI相容操作手系统模型及控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

超高分辨率、超大动态范围光纤传感通用测试系统

国家自然科学基金

0+阅读 · 2012年12月31日

面向无人驾驶汽车的视觉道路环境感知算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

液膜晶化制备分子筛膜胶囊催化剂

国家自然科学基金

0+阅读 · 2011年12月31日

近日节律与代谢疾病

国家自然科学基金

0+阅读 · 2011年12月31日

管道支持的无线移动传感器网络部署和调度研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于学习的视频关注计算及其在互动视频技术中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员