Vision and language understanding techniques have achieved remarkable progress, but currently it is still difficult to well handle problems involving very fine-grained details. For example, when the robot is told to "bring me the book in the girl's left hand", most existing methods would fail if the girl holds one book respectively in her left and right hand. In this work, we introduce a new task named human-centric relation segmentation (HRS), as a fine-grained case of HOI-det. HRS aims to predict the relations between the human and surrounding entities and identify the relation-correlated human parts, which are represented as pixel-level masks. For the above exemplar case, our HRS task produces results in the form of relation triplets <girl [left hand], hold, book> and exacts segmentation masks of the book, with which the robot can easily accomplish the grabbing task. Correspondingly, we collect a new Person In Context (PIC) dataset for this new task, which contains 17,122 high-resolution images and densely annotated entity segmentation and relations, including 141 object categories, 23 relation categories and 25 semantic human parts. We also propose a Simultaneous Matching and Segmentation (SMS) framework as a solution to the HRS task. I Outputs of the three branches are fused to produce the final HRS results. Extensive experiments on PIC and V-COCO datasets show that the proposed SMS method outperforms baselines with the 36 FPS inference speed.


翻译:视觉和语言理解技术取得了显著的进展,但目前仍难以很好地处理涉及非常精细细节的问题。例如,当机器人被告知“将书交给我,女孩左手拿一本书”时,大多数现有方法将失败,如果女孩分别持有一本书,女孩左手和右手就会失败。在这项工作中,我们引入了名为“以人为中心的关系分割”的新任务,作为“HOI-det”的细微例子。HRS旨在预测人类实体与周围实体之间的关系,并确定作为像素级面具体现的与关系相关的人体部分。对于以上的例子来说,我们HRS的任务产生的结果是“三胞子<女孩左手,持有,书籍和精确的分割面面面罩,机器人可以轻松完成抓取任务。我们收集了一个新的“内人”数据集,其中包含17,122个高分辨率图像,并让一个有注释性关系的实体部分和关系,包括141个目标S[左手],S MARS 的S 基线和精确度框架,我们用SLIS 25级的S-LA-LA 显示一个IMS 和S-S-S-LE IMVLA-LA-LA-LA-LA-LA-R-L-L-S-S-S-S-S-S-S-S-S-S-L-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-L-L-L-L-L-L-L-L-S-S-S-S-S-S-S-S-S-L-L-L-S-S-L-L-S-L-L-L

1
下载
关闭预览

相关内容

开源书:PyTorch深度学习起步
专知会员服务
49+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Arxiv
8+阅读 · 2021年6月1日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员