Recent developments in transformer models for visual data have led to significant improvements in recognition and detection tasks. In particular, using learnable queries in place of region proposals has given rise to a new class of one-stage detection models, spearheaded by the Detection Transformer (DETR). Variations on this one-stage approach have since dominated human-object interaction (HOI) detection. However, the success of such one-stage HOI detectors can largely be attributed to the representation power of transformers. We discovered that when equipped with the same transformer, their two-stage counterparts can be more performant and memory-efficient, while taking a fraction of the time to train. In this work, we propose the Unary-Pairwise Transformer, a two-stage detector that exploits unary and pairwise representations for HOIs. We observe that the unary and pairwise parts of our transformer network specialise, with the former preferentially increasing the scores of positive examples and the latter decreasing the scores of negative examples. We evaluate our method on the HICO-DET and V-COCO datasets, and significantly outperform state-of-the-art approaches. At inference time, our model with ResNet50 approaches real-time performance on a single GPU.


翻译:视觉数据变异器模型的最近发展使识别和探测任务有了显著的改善,特别是,利用可学习的查询取代区域建议,产生了由探测变异器(DETR)牵头的新型单阶段检测模型。这一一阶段方法的变动自此以来主导了人类与物体的互动(HOI)检测。然而,这种一阶段HOI探测器的成功在很大程度上可归因于变异器的演示力。我们发现,如果配备同样的变异器,其两阶段对等器可以更出色、更具有记忆效率,同时要花一点时间进行培训。我们在此工作中建议使用双阶段变异器(Unary-PairWise 变异器),这是一个两阶段检测器,利用对口的对口演示器。我们注意到,我们变异器网络的单级和对口部分特别功能,前一是增加正面例子的分数,后一是减少负面例子的分数。我们评估了我们在HICO-DET和V-COCO数据集上采用的方法,同时用一小部分时间来培训。我们建议采用两阶段的双级转换器探测器,并大大超越了我们实际的G-PU-S-PAR方法。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
【NeurIPS2021】用于物体检测的实例条件知识蒸馏
专知会员服务
19+阅读 · 2021年11月10日
【ACL 2021 】ExCAR: 事理图谱增强的可解释因果推理
专知会员服务
46+阅读 · 2021年11月10日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
CornerNet: Detecting Objects as Paired Keypoints 论文笔记
统计学习与视觉计算组
7+阅读 · 2018年9月27日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
最前沿的深度学习论文、架构及资源分享
深度学习与NLP
13+阅读 · 2018年1月25日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
Top
微信扫码咨询专知VIP会员