Two-stage methods have dominated Human-Object Interaction (HOI) detection for several years. Recently, one-stage HOI detection methods have become popular. In this paper, we aim to explore the essential pros and cons of two-stage and one-stage methods. With this as the goal, we find that conventional two-stage methods mainly suffer from positioning positive interactive human-object pairs, while one-stage methods are challenging to make an appropriate trade-off on multi-task learning, i.e., object detection, and interaction classification. Therefore, a core problem is how to take the essence and discard the dregs from the conventional two types of methods. To this end, we propose a novel one-stage framework with disentangling human-object detection and interaction classification in a cascade manner. In detail, we first design a human-object pair generator based on a state-of-the-art one-stage HOI detector by removing the interaction classification module or head and then design a relatively isolated interaction classifier to classify each human-object pair. Two cascade decoders in our proposed framework can focus on one specific task, detection or interaction classification. In terms of the specific implementation, we adopt a transformer-based HOI detector as our base model. The newly introduced disentangling paradigm outperforms existing methods by a large margin, with a significant relative mAP gain of 9.32% on HICO-Det.


翻译:多年来,两阶段方法一直是人类- 物体互动(HOI) 的主要特征。 最近, 一阶段HOI 检测方法变得很受欢迎。 在本文中,我们的目标是探索两阶段和一阶段方法的基本利弊。 以这一目标为目的,我们发现传统的两阶段方法主要因为定位积极的交互人体- 目标对口而受到影响,而一阶段方法则具有挑战性,以便在多任务学习(即物体探测和互动分类)上进行适当的权衡。 因此,一个核心问题是如何从常规的两种方法中取精髓并丢弃底色。 为此,我们提出一个新的一阶段框架,以分层方式分解人体- 目标探测和互动分类。 详细来说,我们首先根据一阶段的状态设计一个人体- 目标对口发电机,删除互动分类模块或头,然后设计一个相对孤立的互动分类,将每个人- CO 分类。 我们拟议框架中的两个级级化模型拆分解了一级框架, 以分级框架以分级方式分解了人类- 将一个特定任务检测、 大规模任务测试或升级的模型, 将一个现有任务- 将一个特定任务检测方法引入一个新的任务测试。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
基于深度学习的行人检测方法综述
专知会员服务
70+阅读 · 2021年4月14日
专知会员服务
74+阅读 · 2021年3月23日
专知会员服务
61+阅读 · 2020年3月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
159+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
重磅!13篇基于Anchor free的目标检测方法
极市平台
4+阅读 · 2019年5月28日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
CVPR2019目标检测方法进展综述
极市平台
45+阅读 · 2019年3月20日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
ECCV 2018 | OR-CNN行人检测:为‘遮挡’而生
极市平台
6+阅读 · 2018年9月21日
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
A Survey on GANs for Anomaly Detection
Arxiv
7+阅读 · 2021年9月14日
Arxiv
9+阅读 · 2021年3月3日
Polarity Loss for Zero-shot Object Detection
Arxiv
3+阅读 · 2018年11月22日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关资讯
重磅!13篇基于Anchor free的目标检测方法
极市平台
4+阅读 · 2019年5月28日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
CVPR2019目标检测方法进展综述
极市平台
45+阅读 · 2019年3月20日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
ECCV 2018 | OR-CNN行人检测:为‘遮挡’而生
极市平台
6+阅读 · 2018年9月21日
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关论文
A Survey on GANs for Anomaly Detection
Arxiv
7+阅读 · 2021年9月14日
Arxiv
9+阅读 · 2021年3月3日
Polarity Loss for Zero-shot Object Detection
Arxiv
3+阅读 · 2018年11月22日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员