开放词汇视频实例分割 (Towards Open-Vocabulary Video Instance Segmentation) - 专知论文

会员服务 ·

0

视频实例分割 · 分割 · 实例分割 · 类别 · 视频 ·

2023 年 4 月 4 日

Towards Open-Vocabulary Video Instance Segmentation

翻译：开放词汇视频实例分割

Haochen Wang,Shuai Wang,Cilin Yan,Xiaolong Jiang,XU Tang,Yao Hu,Weidi Xie,Efstratios Gavves

Video Instance Segmentation(VIS) aims at segmenting and categorizing objects in videos from a closed set of training categories, lacking the generalization ability to handle novel categories in real-world videos. To address this limitation, we make the following three contributions. First, we introduce the novel task of Open-Vocabulary Video Instance Segmentation, which aims to simultaneously segment, track, and classify objects in videos from open-set categories, including novel categories unseen during training. Second, to benchmark Open-Vocabulary VIS, we collect a Large-Vocabulary Video Instance Segmentation dataset(LV-VIS), that contains well-annotated objects from 1,212 diverse categories, significantly surpassing the category size of existing datasets by more than one order of magnitude. Third, we propose an efficient Memory-Induced Vision-Language Transformer, MindVLT, to first achieve Open-Vocabulary VIS in an end-to-end manner with near real-time inference speed. Extensive experiments on LV-VIS and four existing VIS datasets demonstrate the strong zero-shot generalization ability of MindVLT on novel categories. We will release the dataset and code to facilitate future endeavors.

翻译：视频实例分割（VIS）旨在从训练数据的有限类别中分割和分类视频中的对象，缺乏处理实际世界视频中未知类别的普适性。为了解决这个局限性，我们做出以下三个贡献。首先，我们引入了开放词汇视频实例分割的新任务，它旨在同时从开放的词汇中分割、跟踪和分类视频中的对象，包括在训练期间未见过的新类别。其次，为了基准测试开放词汇 VIS，我们收集了一个大词汇视频实例分割数据集（LV-VIS），其中包含来自 1,212 种不同类别的良好注释对象，比现有数据集的类别数量超过一个数量级。第三，我们提出了一种高效的记忆诱导视觉语言变换器 MindVLT，首次以近实时推断速度以端到端的方式实现了开放词汇 VIS。在 LV-VIS 和四个现有的 VIS 数据集上的大量实验证明了 MindVLT 在新类别上的强大的零样本泛化能力。我们将发布数据集和代码以促进未来的研究努力。

1

相关内容

视频实例分割

视频实例分割

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

36+阅读 · 2022年3月25日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

TorchSeg：基于pytorch的语义分割算法开源了

TorchSeg：基于pytorch的语义分割算法开源了

极市平台

20+阅读 · 2019年1月28日

【泡泡一分钟】DynaSLAM：基于动态目标检测和背景修复的视觉SLAM

【泡泡一分钟】DynaSLAM：基于动态目标检测和背景修复的视觉SLAM

泡泡机器人SLAM

16+阅读 · 2019年1月27日

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

泡泡机器人SLAM

25+阅读 · 2019年1月17日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

VIP中间神经元失抑制效应在MCD痫性放电自限性受损中的作用机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

p型Cu2O薄膜的δ掺杂及其异质结特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于查询语义分析与推理的隐式相关反馈检索模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

中文动态语义网构建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于新型复合衬底的石墨烯PECVD低温可控制备与光伏应用

国家自然科学基金

0+阅读 · 2012年12月31日

近红外光催化机理与纳米带表面异质结构全光谱太阳光催化材料

国家自然科学基金

0+阅读 · 2012年12月31日

基于NDVI的流域产流产沙对LUCC响应的快速预测及其尺度效应

国家自然科学基金

0+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

音频指纹在音乐检索中的关键技术研究

国家自然科学基金

2+阅读 · 2008年12月31日

Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud Semantic Segmentation

Arxiv

0+阅读 · 2023年5月23日

3D Open-vocabulary Segmentation with Foundation Models

Arxiv

0+阅读 · 2023年5月23日

UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model

Arxiv

0+阅读 · 2023年5月22日

PINA: Leveraging Side Information in eXtreme Multi-label Classification via Predicted Instance Neighborhood Aggregation

Arxiv

0+阅读 · 2023年5月21日

Easy-to-Hard Learning for Information Extraction

Arxiv

0+阅读 · 2023年5月19日

Annotation-free Audio-Visual Segmentation

Arxiv

0+阅读 · 2023年5月19日

Towards Reasoning in Large Language Models: A Survey

Arxiv

34+阅读 · 2022年12月20日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

VIP会员

文章信息

相关主题

视频实例分割

相关VIP内容

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

36+阅读 · 2022年3月25日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

TorchSeg：基于pytorch的语义分割算法开源了

TorchSeg：基于pytorch的语义分割算法开源了

极市平台

20+阅读 · 2019年1月28日

【泡泡一分钟】DynaSLAM：基于动态目标检测和背景修复的视觉SLAM

【泡泡一分钟】DynaSLAM：基于动态目标检测和背景修复的视觉SLAM

泡泡机器人SLAM

16+阅读 · 2019年1月27日

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

【泡泡一分钟】基于运动估计的激光雷达和相机标定方法

泡泡机器人SLAM

25+阅读 · 2019年1月17日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

相关论文

Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud Semantic Segmentation

Arxiv

0+阅读 · 2023年5月23日

3D Open-vocabulary Segmentation with Foundation Models

Arxiv

0+阅读 · 2023年5月23日

UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model

Arxiv

0+阅读 · 2023年5月22日

PINA: Leveraging Side Information in eXtreme Multi-label Classification via Predicted Instance Neighborhood Aggregation

Arxiv

0+阅读 · 2023年5月21日

Easy-to-Hard Learning for Information Extraction

Arxiv

0+阅读 · 2023年5月19日

Annotation-free Audio-Visual Segmentation

Arxiv

0+阅读 · 2023年5月19日

Towards Reasoning in Large Language Models: A Survey

Arxiv

34+阅读 · 2022年12月20日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

相关基金

VIP中间神经元失抑制效应在MCD痫性放电自限性受损中的作用机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

p型Cu2O薄膜的δ掺杂及其异质结特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于查询语义分析与推理的隐式相关反馈检索模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

中文动态语义网构建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于新型复合衬底的石墨烯PECVD低温可控制备与光伏应用

国家自然科学基金

0+阅读 · 2012年12月31日

近红外光催化机理与纳米带表面异质结构全光谱太阳光催化材料

国家自然科学基金

0+阅读 · 2012年12月31日

基于NDVI的流域产流产沙对LUCC响应的快速预测及其尺度效应

国家自然科学基金

0+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

音频指纹在音乐检索中的关键技术研究

国家自然科学基金

2+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员