Humans constantly contact objects to move and perform tasks. Thus, detecting human-object contact is important for building human-centered artificial intelligence. However, there exists no robust method to detect contact between the body and the scene from an image, and there exists no dataset to learn such a detector. We fill this gap with HOT ("Human-Object conTact"), a new dataset of human-object contacts for images. To build HOT, we use two data sources: (1) We use the PROX dataset of 3D human meshes moving in 3D scenes, and automatically annotate 2D image areas for contact via 3D mesh proximity and projection. (2) We use the V-COCO, HAKE and Watch-n-Patch datasets, and ask trained annotators to draw polygons for the 2D image areas where contact takes place. We also annotate the involved body part of the human body. We use our HOT dataset to train a new contact detector, which takes a single color image as input, and outputs 2D contact heatmaps as well as the body-part labels that are in contact. This is a new and challenging task that extends current foot-ground or hand-object contact detectors to the full generality of the whole body. The detector uses a part-attention branch to guide contact estimation through the context of the surrounding body parts and scene. We evaluate our detector extensively, and quantitative results show that our model outperforms baselines, and that all components contribute to better performance. Results on images from an online repository show reasonable detections and generalizability.
翻译:人类不断接触对象以移动和执行任务。 因此, 检测人体- 目标接触对于建立以人为中心的人工智能十分重要。 但是, 不存在从图像中检测身体和场景之间接触的可靠方法, 也没有从图像中检测这种接触的数据集。 我们用 HOT (“ 人类- 目标对像” ) 填补这个空白, 这是一张新的人体- 目标接触图像的数据集。 我们用两个数据源构建 HOT 。 我们用我们的 HOT 数据集来训练一个新的3D 人类介质的 PROX 数据集, 它在 3D 屏幕中移动, 自动注解 2D 图像区域, 通过 3D 图像接近和投影来进行联系 。 (2) 我们使用 V- CO、 Hake 和 Watch- n- Patch 数据集来学习这种探测器。 我们用训练有素的警告员来为 2D 图像区域绘制多功能图集 。 我们用 HOT 数据集 来训练一个新的接触器 。 我们用一个从 单个的颜色图像作为输入, 和输出 2D 的热图段 进行 连接 探测 检测, 和 显示整个 方向 显示整个 方向 方向 和整个 的 的 显示整个 方向 显示 整个 方向 和整个 显示 整个 的 和整个 的 方向 的 显示 的 的 和整个 和整个 的 的触点 的 显示 的 的 的 和整个 的触点 的触点 显示 显示 的 和整个 的触点 和整个 的触点 和整个 的触点 的触点 的触点 。</s>