CLIP的区域提示和锚点预匹配应用于开放词汇检测的CORA (CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching) - 专知论文

会员服务 ·

0

anchor · Prompt · 训练数据 · 可辨认的 · MoDELS ·

2023 年 3 月 23 日

CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

翻译：CLIP的区域提示和锚点预匹配应用于开放词汇检测的CORA

Xiaoshi Wu,Feng Zhu,Rui Zhao,Hongsheng Li

from arxiv, 11 pages, 4 figures. Accepted by CVPR 2023

Open-vocabulary detection (OVD) is an object detection task aiming at detecting objects from novel categories beyond the base categories on which the detector is trained. Recent OVD methods rely on large-scale visual-language pre-trained models, such as CLIP, for recognizing novel objects. We identify the two core obstacles that need to be tackled when incorporating these models into detector training: (1) the distribution mismatch that happens when applying a VL-model trained on whole images to region recognition tasks; (2) the difficulty of localizing objects of unseen classes. To overcome these obstacles, we propose CORA, a DETR-style framework that adapts CLIP for Open-vocabulary detection by Region prompting and Anchor pre-matching. Region prompting mitigates the whole-to-region distribution gap by prompting the region features of the CLIP-based region classifier. Anchor pre-matching helps learning generalizable object localization by a class-aware matching mechanism. We evaluate CORA on the COCO OVD benchmark, where we achieve 41.7 AP50 on novel classes, which outperforms the previous SOTA by 2.4 AP50 even without resorting to extra training data. When extra training data is available, we train CORA$^+$ on both ground-truth base-category annotations and additional pseudo bounding box labels computed by CORA. CORA$^+$ achieves 43.1 AP50 on the COCO OVD benchmark and 28.1 box APr on the LVIS OVD benchmark.

翻译：开放词汇检测（OVD）是一项物体检测任务，旨在检测出训练器基础分类之外的新类别的物体。最近的OVD方法依赖于大规模的视觉语言预训练模型，如CLIP，用于识别新物体。我们确定了将这些模型纳入检测器训练时需要克服的两个核心障碍：（1）应用在整个图像上训练的VL模型到区域识别任务时存在的分布偏差；（2）难以定位未见类别的物体。为了克服这些障碍，我们提出了CORA，这是一种DETR风格的框架，通过区域提示和锚预匹配，将CLIP适应于开放词汇检测。区域提示通过提示基于CLIP的区域分类器的区域特征来减轻整体到区域分布差异。锚点预匹配通过一种类别感知的匹配机制帮助学习可推广的物体定位。我们在COCO OVD基准测试上评估CORA，其中我们在新类别上实现了41.7 AP50的性能，即使不依赖额外的训练数据，也超过了以前的SOTA 2.4 AP50。当有额外的训练数据可用时，我们在真实基础分类注释和由CORA计算的额外伪包围盒标签上训练CORA$^+$。CORA$^+$在COCO OVD基准测试中实现了43.1 AP50的性能和28.1的LVIS OVD基准测试的框APR。

0

相关内容

anchor

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【SIGIR2020】学习词项区分性，Learning Term Discrimination

【SIGIR2020】学习词项区分性，Learning Term Discrimination

专知会员服务

16+阅读 · 2020年4月28日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

37+阅读 · 2020年4月10日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

85+阅读 · 2019年11月15日

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

机器之心

1+阅读 · 2022年11月21日

被拒 ECCV 2020！AutoAssign：最强Anchor-free目标检测网络

被拒 ECCV 2020！AutoAssign：最强Anchor-free目标检测网络

CVer

15+阅读 · 2020年7月9日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

网络敏感视频识别的关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于Click反应的离子型多孔有机框架同步富集和催化转化CO2研究

国家自然科学基金

0+阅读 · 2013年12月31日

静息态脑功能网络的神经电生理基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

视神经脊髓炎结构和数字工作记忆多模态MRI研究

国家自然科学基金

0+阅读 · 2012年12月31日

情感信息抽取的资源建设及关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

1p31.1和20p13区基因变异与早年创伤在强迫症发病中的作用

国家自然科学基金

0+阅读 · 2011年12月31日

面向英汉双向跨语言图像检索的文本分析关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于fMRI的个性化图像情感标注及其本体库研究

国家自然科学基金

0+阅读 · 2009年12月31日

Arc在颞叶癫痫发生及认知功能损害中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

新疆维吾尔族肾虚血瘀型耳聋与线粒体基因多态性的相关性研究

国家自然科学基金

0+阅读 · 2008年12月31日

SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation

Arxiv

0+阅读 · 2023年5月15日

Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation

Arxiv

0+阅读 · 2023年5月12日

Universal Source Separation with Weakly Labelled Data

Arxiv

0+阅读 · 2023年5月11日

Segment and Track Anything

Arxiv

0+阅读 · 2023年5月11日

Rediscovery of CNN's Versatility for Text-based Encoding of Raw Electronic Health Records

Arxiv

0+阅读 · 2023年5月10日

DeepTextMark: Deep Learning based Text Watermarking for Detection of Large Language Model Generated Text

Arxiv

0+阅读 · 2023年5月9日

ComputeGPT: A computational chat model for numerical problems

Arxiv

1+阅读 · 2023年5月8日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【SIGIR2020】学习词项区分性，Learning Term Discrimination

【SIGIR2020】学习词项区分性，Learning Term Discrimination

专知会员服务

16+阅读 · 2020年4月28日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

37+阅读 · 2020年4月10日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

85+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

机器之心

1+阅读 · 2022年11月21日

被拒 ECCV 2020！AutoAssign：最强Anchor-free目标检测网络

被拒 ECCV 2020！AutoAssign：最强Anchor-free目标检测网络

CVer

15+阅读 · 2020年7月9日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

相关论文

SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation

Arxiv

0+阅读 · 2023年5月15日

Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation

Arxiv

0+阅读 · 2023年5月12日

Universal Source Separation with Weakly Labelled Data

Arxiv

0+阅读 · 2023年5月11日

Segment and Track Anything

Arxiv

0+阅读 · 2023年5月11日

Rediscovery of CNN's Versatility for Text-based Encoding of Raw Electronic Health Records

Arxiv

0+阅读 · 2023年5月10日

DeepTextMark: Deep Learning based Text Watermarking for Detection of Large Language Model Generated Text

Arxiv

0+阅读 · 2023年5月9日

ComputeGPT: A computational chat model for numerical problems

Arxiv

1+阅读 · 2023年5月8日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

相关基金

网络敏感视频识别的关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于Click反应的离子型多孔有机框架同步富集和催化转化CO2研究

国家自然科学基金

0+阅读 · 2013年12月31日

静息态脑功能网络的神经电生理基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

视神经脊髓炎结构和数字工作记忆多模态MRI研究

国家自然科学基金

0+阅读 · 2012年12月31日

情感信息抽取的资源建设及关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

1p31.1和20p13区基因变异与早年创伤在强迫症发病中的作用

国家自然科学基金

0+阅读 · 2011年12月31日

面向英汉双向跨语言图像检索的文本分析关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于fMRI的个性化图像情感标注及其本体库研究

国家自然科学基金

0+阅读 · 2009年12月31日

Arc在颞叶癫痫发生及认知功能损害中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

新疆维吾尔族肾虚血瘀型耳聋与线粒体基因多态性的相关性研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员