6D pose estimation is the task of predicting the translation and orientation of objects in a given input image, which is a crucial prerequisite for many robotics and augmented reality applications. Lately, the Transformer Network architecture, equipped with a multi-head self-attention mechanism, is emerging to achieve state-of-the-art results in many computer vision tasks. DETR, a Transformer-based model, formulated object detection as a set prediction problem and achieved impressive results without standard components like region of interest pooling, non-maximal suppression, and bounding box proposals. In this work, we propose T6D-Direct, a real-time single-stage direct method with a transformer-based architecture built on DETR to perform 6D multi-object pose direct estimation. We evaluate the performance of our method on the YCB-Video dataset. Our method achieves the fastest inference time, and the pose estimation accuracy is comparable to state-of-the-art methods.


翻译:6D 构成估计是预测特定输入图像中对象的翻译和方向的任务,这是许多机器人和增强现实应用的关键先决条件。 近来,配备多头自留机制的变换网络结构正在出现,以在许多计算机愿景任务中实现最新成果。 DETR是一个以变换器为基础的模型,将物体探测作为一组预测问题,并取得了令人印象深刻的成果,没有标准的组成部分,如利益集中区域、非最大抑制和捆绑框提案。 在这项工作中,我们提出了T6D-Direct,这是实时的单级直接方法,其基于变压器的架构建在DETR上,用于执行6D多球。我们评估我们在YCB-Video数据集上的方法的性能。我们的方法达到最快的推论时间,而其估计准确性与最新方法相当。

0
下载
关闭预览

相关内容

专知会员服务
10+阅读 · 2021年10月3日
专知会员服务
33+阅读 · 2021年5月12日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
视觉目标跟踪十年研究进展
专知会员服务
86+阅读 · 2021年3月10日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
CVPR2019 | 6D目标姿态估计,李飞飞等提出DenseFusion
计算机视觉life
4+阅读 · 2019年4月4日
【泡泡一分钟】高动态环境的语义单目SLAM
泡泡机器人SLAM
5+阅读 · 2019年3月27日
6D目标姿态估计,李飞飞夫妇等提出DenseFusion
机器之心
9+阅读 · 2019年1月17日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】RoomNet:端到端房屋布局估计
泡泡机器人SLAM
18+阅读 · 2018年12月4日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2020年11月28日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
VIP会员
相关VIP内容
专知会员服务
10+阅读 · 2021年10月3日
专知会员服务
33+阅读 · 2021年5月12日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
视觉目标跟踪十年研究进展
专知会员服务
86+阅读 · 2021年3月10日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Top
微信扫码咨询专知VIP会员