Two-stage methods have dominated Human-Object Interaction (HOI) detection for several years. Recently, one-stage HOI detection methods have become popular. In this paper, we aim to explore the essential pros and cons of two-stage and one-stage methods. With this as the goal, we find that conventional two-stage methods mainly suffer from positioning positive interactive human-object pairs, while one-stage methods are challenging to make an appropriate trade-off on multi-task learning, i.e., object detection, and interaction classification. Therefore, a core problem is how to take the essence and discard the dregs from the conventional two types of methods. To this end, we propose a novel one-stage framework with disentangling human-object detection and interaction classification in a cascade manner. In detail, we first design a human-object pair generator based on a state-of-the-art one-stage HOI detector by removing the interaction classification module or head and then design a relatively isolated interaction classifier to classify each human-object pair. Two cascade decoders in our proposed framework can focus on one specific task, detection or interaction classification. In terms of the specific implementation, we adopt a transformer-based HOI detector as our base model. The newly introduced disentangling paradigm outperforms existing methods by a large margin, with a significant relative mAP gain of 9.32% on HICO-Det. The source codes are available at https://github.com/YueLiao/CDN.


翻译:多年来,两阶段方法一直主导着人类- 目标互动( HOI) 的检测。 最近, 一阶段HOI的检测方法变得很受欢迎。 在本文中, 我们的目标是探索两阶段和一阶段方法的基本利弊。 以此为目标, 我们发现常规的两阶段方法主要因定位积极的交互人体- 目标对口而受到影响, 而一阶段方法则具有挑战性, 以便在多任务学习( 即, 对象检测和互动分类)上进行适当的权衡。 因此, 一个核心问题是如何从常规的两种方法中取精髓并丢弃底色。 为此, 我们提出一个新的一阶段框架, 以分辨分辨和互动的方式分解人- 。 我们首先设计一个基于状态的单阶段 HOI 检测器, 并删除互动模块或头项, 然后设计一个相对的源的分解码 。 在我们提议的框架中, 两个级级化的一阶段 Discod, 以一个特定的任务检测/ 新的任务测试方法 。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
【CVPR2021】显著目标和伪装目标的不确定性感知联合检测
【CVPR2021】用于目标检测的通用实例蒸馏
专知会员服务
23+阅读 · 2021年3月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关VIP内容
【CVPR2021】显著目标和伪装目标的不确定性感知联合检测
【CVPR2021】用于目标检测的通用实例蒸馏
专知会员服务
23+阅读 · 2021年3月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员