SegGPT：上下文中的全面分割 (SegGPT: Segmenting Everything In Context) - 专知论文

会员服务 ·

0

分割 · 上下文 · 语义分割 · 上下文推理 · 上下文学习 ·

2023 年 4 月 6 日

SegGPT: Segmenting Everything In Context

翻译：SegGPT：上下文中的全面分割

Xinlong Wang,Xiaosong Zhang,Yue Cao,Wen Wang,Chunhua Shen,Tiejun Huang

from arxiv, Code and Demo: https://github.com/baaivision/Painter

We present SegGPT, a generalist model for segmenting everything in context. We unify various segmentation tasks into a generalist in-context learning framework that accommodates different kinds of segmentation data by transforming them into the same format of images. The training of SegGPT is formulated as an in-context coloring problem with random color mapping for each data sample. The objective is to accomplish diverse tasks according to the context, rather than relying on specific colors. After training, SegGPT can perform arbitrary segmentation tasks in images or videos via in-context inference, such as object instance, stuff, part, contour, and text. SegGPT is evaluated on a broad range of tasks, including few-shot semantic segmentation, video object segmentation, semantic segmentation, and panoptic segmentation. Our results show strong capabilities in segmenting in-domain and out-of-domain targets, either qualitatively or quantitatively.

翻译：我们提出了SegGPT，一种用于上下文中全面分割的通用模型。我们将各种分割任务统一成一个一般的上下文学习框架，通过将它们转换为图像的相同格式，以适应不同类型的分割数据。 SegGPT的训练被定义为一个在上下文着色问题下的训练过程，对于每个数据样本都有随机颜色映射。目标是根据上下文实现多样化的任务，而不是依赖特定的颜色。训练后，SegGPT可以通过上下文推理在图像或视频中执行任意分割任务，如物体实例、物品、部分、轮廓和文本。SegGPT在各种任务上进行了评估，包括少样本语义分割、视频目标分割、语义分割和全景分割。我们的结果表明，在域内和域外目标的分割能力方面，无论是定性还是定量，SegGPT都具有很强的能力。

1

相关内容

CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

专知会员服务

40+阅读 · 2023年4月6日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

深度卷积神经网络图像语义分割研究进展

专知会员服务

86+阅读 · 2021年1月7日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【神经网络数学的初学者指南】（A Beginner’s Guide to the Mathematics of Neural Networks），伦敦国王学院数学系教授| A. C. C. Coolen

【神经网络数学的初学者指南】（A Beginner’s Guide to the Mathematics of Neural Networks），伦敦国王学院数学系教授| A. C. C. Coolen

专知会员服务

55+阅读 · 2019年12月12日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

机器之心

4+阅读 · 2023年4月8日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

15+阅读 · 2018年2月13日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

面向移动机器人语义对象的协同感知注意机制及分割方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

高质量机动目标InISAR三维成像研究

国家自然科学基金

0+阅读 · 2012年12月31日

图的标号及相关问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

原癌基因AEG-1网络调控炎症非可控性及诱导恶性转化的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于相似图谱的脑MR图像海马体自动分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向大规模三维模型集的交互式共分割及应用

国家自然科学基金

1+阅读 · 2012年12月31日

超导量子态的精密测量

国家自然科学基金

0+阅读 · 2012年12月31日

基于Voronoi图的动态虚拟场景可见性计算方法

国家自然科学基金

0+阅读 · 2010年12月31日

多源信息融合模型集成应用及有效性研究

国家自然科学基金

0+阅读 · 2009年12月31日

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

Arxiv

0+阅读 · 2023年5月24日

Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

Arxiv

0+阅读 · 2023年5月22日

VanillaNet: the Power of Minimalism in Deep Learning

Arxiv

1+阅读 · 2023年5月22日

Uncertainty-based Detection of Adversarial Attacks in Semantic Segmentation

Arxiv

0+阅读 · 2023年5月22日

HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

Arxiv

0+阅读 · 2023年5月19日

RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought

Arxiv

0+阅读 · 2023年5月19日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

VIP会员

文章信息

相关主题

上下文推理

上下文学习

相关VIP内容

CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

专知会员服务

40+阅读 · 2023年4月6日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

深度卷积神经网络图像语义分割研究进展

专知会员服务

86+阅读 · 2021年1月7日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【神经网络数学的初学者指南】（A Beginner’s Guide to the Mathematics of Neural Networks），伦敦国王学院数学系教授| A. C. C. Coolen

【神经网络数学的初学者指南】（A Beginner’s Guide to the Mathematics of Neural Networks），伦敦国王学院数学系教授| A. C. C. Coolen

专知会员服务

55+阅读 · 2019年12月12日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】在低维与高维空间中对潜在表征的分析、建模与变换

《美军使用大语言模型技术生成领域特定文档》2025最新379页

【NeurIPS 2025】以语言为中心的全模态表征学习的可扩展性研究

智能体化多模态大语言模型综述

相关资讯

通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

机器之心

4+阅读 · 2023年4月8日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

15+阅读 · 2018年2月13日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

相关论文

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

Arxiv

0+阅读 · 2023年5月24日

Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

Arxiv

0+阅读 · 2023年5月22日

VanillaNet: the Power of Minimalism in Deep Learning

Arxiv

1+阅读 · 2023年5月22日

Uncertainty-based Detection of Adversarial Attacks in Semantic Segmentation

Arxiv

0+阅读 · 2023年5月22日

HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

Arxiv

0+阅读 · 2023年5月19日

RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought

Arxiv

0+阅读 · 2023年5月19日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

相关基金

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

面向移动机器人语义对象的协同感知注意机制及分割方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

高质量机动目标InISAR三维成像研究

国家自然科学基金

0+阅读 · 2012年12月31日

图的标号及相关问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

原癌基因AEG-1网络调控炎症非可控性及诱导恶性转化的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于相似图谱的脑MR图像海马体自动分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向大规模三维模型集的交互式共分割及应用

国家自然科学基金

1+阅读 · 2012年12月31日

超导量子态的精密测量

国家自然科学基金

0+阅读 · 2012年12月31日

基于Voronoi图的动态虚拟场景可见性计算方法

国家自然科学基金

0+阅读 · 2010年12月31日

多源信息融合模型集成应用及有效性研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员