Given a query patch from a novel class, one-shot object detection aims to detect all instances of that class in a target image through the semantic similarity comparison. However, due to the extremely limited guidance in the novel class as well as the unseen appearance difference between query and target instances, it is difficult to appropriately exploit their semantic similarity and generalize well. To mitigate this problem, we present a universal Cross-Attention Transformer (CAT) module for accurate and efficient semantic similarity comparison in one-shot object detection. The proposed CAT utilizes transformer mechanism to comprehensively capture bi-directional correspondence between any paired pixels from the query and the target image, which empowers us to sufficiently exploit their semantic characteristics for accurate similarity comparison. In addition, the proposed CAT enables feature dimensionality compression for inference speedup without performance loss. Extensive experiments on COCO, VOC, and FSOD under one-shot settings demonstrate the effectiveness and efficiency of our method, e.g., it surpasses CoAE, a major baseline in this task by 1.0% in AP on COCO and runs nearly 2.5 times faster. Code will be available in the future.


翻译:鉴于来自一个新类的查询补丁,一次性物体探测的目的是通过语义相似性比较,在目标图像中检测该类的所有情况。然而,由于新类的指导极为有限,以及查询和目标实例之间无形的外观差异,很难适当地利用它们的语义相似性,并广泛归纳。为了缓解这一问题,我们提出了一个通用的跨注意力变换器模块,以便在一发物体探测中进行准确和高效的语义相似性比较。拟议的CAT利用变压器机制全面捕捉来自查询和目标图像的任何配对像素之间的双向通信,这使我们能够充分利用其语义特征进行精确的相似性比较。此外,拟议的CAT能够使特征维度压缩在不造成性能损失的情况下加速发酵速度。在一发式环境中对CO、VOC和FSOD进行的广泛实验表明我们的方法的有效性和效率,例如,它超过了COCOCO-CO-未来将使用近2.5倍的速度。

0
下载
关闭预览

相关内容

【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年4月9日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关VIP内容
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
相关论文
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年4月9日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
7+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员