自主驾驶中学习时间顶视金字塔进行联合感知和预测的TBP-Former (TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving) - 专知论文

会员服务 ·

0

Pyramid · 变换 · Learning · Extensibility · state-of-the-art ·

2023 年 3 月 22 日

TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving

翻译：自主驾驶中学习时间顶视金字塔进行联合感知和预测的TBP-Former

Shaoheng Fang,Zi Wang,Yiqi Zhong,Junhao Ge,Siheng Chen,Yanfeng Wang

from arxiv, CVPR 2023

Vision-centric joint perception and prediction (PnP) has become an emerging trend in autonomous driving research. It predicts the future states of the traffic participants in the surrounding environment from raw RGB images. However, it is still a critical challenge to synchronize features obtained at multiple camera views and timestamps due to inevitable geometric distortions and further exploit those spatial-temporal features. To address this issue, we propose a temporal bird's-eye-view pyramid transformer (TBP-Former) for vision-centric PnP, which includes two novel designs. First, a pose-synchronized BEV encoder is proposed to map raw image inputs with any camera pose at any time to a shared and synchronized BEV space for better spatial-temporal synchronization. Second, a spatial-temporal pyramid transformer is introduced to comprehensively extract multi-scale BEV features and predict future BEV states with the support of spatial-temporal priors. Extensive experiments on nuScenes dataset show that our proposed framework overall outperforms all state-of-the-art vision-based prediction methods.

翻译：视觉中心联合感知和预测已成为自主驾驶研究的新兴趋势。它从原始的RGB图像中预测周围环境中交通参与者的未来状态。然而，由于不可避免的几何畸变和进一步的空间-时间特征利用，同步获取多个摄像头视图和时间戳下获得的特征仍然是一个关键难题。为了解决这个问题，我们提出了一个时间顶视金字塔变换器（TBP-Former），它包括两个新颖的设计。首先，提出了一个姿态同步的BEV编码器，用于将在任何时间的任何相机姿态下获得的原始图像输入映射到共享和同步的BEV空间，以实现更好的空间-时间同步。其次，引入了一个空间-时间金字塔变换器来全面提取多尺度BEV特征，并在空间-时间先验的支持下预测未来的BEV状态。对nuScenes数据集进行的大量实验表明，我们提出的框架总体上优于所有最先进的基于视觉的预测方法。

0

相关内容

Pyramid

Pyramid is a small, fast, down-to-earth Python web application development framework.

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

15+阅读 · 2022年3月3日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

【经典书】自主机器人导论:运动学，感知，定位和规划，241页pdf

【经典书】自主机器人导论:运动学，感知，定位和规划，241页pdf

专知会员服务

45+阅读 · 2020年11月18日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

ICRA 2019 论文速览 | 基于Deep Learning 的SLAM

ICRA 2019 论文速览 | 基于Deep Learning 的SLAM

计算机视觉life

41+阅读 · 2019年7月22日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

基于姿态图及场景描述的服务机器人长期作业环境感知方法

国家自然科学基金

0+阅读 · 2014年12月31日

特殊环境下大型构件全位置焊接移动机器人自主定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩感知的无人机实时鲁棒低功耗海上红外目标检测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

激光扫描视觉提高DGPS/IMU定位定姿可靠性方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

车载INS/WSN/机器视觉组合导航鲁棒滤波方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自主虚拟人智能感知决策与真实感交互表现研究

国家自然科学基金

7+阅读 · 2012年12月31日

面向火星车的复杂环境实时建模与自主行为优化

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟现实中的人类路径整合研究

国家自然科学基金

7+阅读 · 2012年12月31日

基于视皮层感知机制的生物启发运动特征层次化模型

国家自然科学基金

0+阅读 · 2011年12月31日

Learning Monocular Depth in Dynamic Environment via Context-aware Temporal Attention

Arxiv

0+阅读 · 2023年5月12日

MotionBEV: Attention-Aware Online LiDAR Moving Object Segmentation with Bird's Eye View based Appearance and Motion Features

Arxiv

0+阅读 · 2023年5月12日

Foundations of Spatial Perception for Robotics: Hierarchical Representations and Real-time Systems

Arxiv

0+阅读 · 2023年5月11日

Deep Reinforcement Learning for Interference Management in UAV-based 3D Networks: Potentials and Challenges

Arxiv

0+阅读 · 2023年5月11日

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Arxiv

0+阅读 · 2023年5月11日

SalienDet: A Saliency-based Feature Enhancement Algorithm for Object Detection for Autonomous Driving

Arxiv

0+阅读 · 2023年5月11日

Self-Supervised Learning for Recommender Systems: A Survey

Arxiv

12+阅读 · 2022年3月29日

Image Manipulation Detection by Multi-View Multi-Scale Supervision

Arxiv

13+阅读 · 2021年7月25日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

A Survey of Machine Learning for Computer Architecture and Systems

Arxiv

18+阅读 · 2021年2月16日

VIP会员

文章信息

相关主题

state-of-the-art

相关VIP内容

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

15+阅读 · 2022年3月3日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

【经典书】自主机器人导论:运动学，感知，定位和规划，241页pdf

【经典书】自主机器人导论:运动学，感知，定位和规划，241页pdf

专知会员服务

45+阅读 · 2020年11月18日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

ICRA 2019 论文速览 | 基于Deep Learning 的SLAM

ICRA 2019 论文速览 | 基于Deep Learning 的SLAM

计算机视觉life

41+阅读 · 2019年7月22日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

【泡泡点云时空】基于增量分割的3D点云定位方法（ICRA2018-4）

泡泡机器人SLAM

13+阅读 · 2018年10月7日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

相关论文

Learning Monocular Depth in Dynamic Environment via Context-aware Temporal Attention

Arxiv

0+阅读 · 2023年5月12日

MotionBEV: Attention-Aware Online LiDAR Moving Object Segmentation with Bird's Eye View based Appearance and Motion Features

Arxiv

0+阅读 · 2023年5月12日

Foundations of Spatial Perception for Robotics: Hierarchical Representations and Real-time Systems

Arxiv

0+阅读 · 2023年5月11日

Deep Reinforcement Learning for Interference Management in UAV-based 3D Networks: Potentials and Challenges

Arxiv

0+阅读 · 2023年5月11日

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Real-Time Joint Simulation of LiDAR Perception and Motion Planning for Automated Driving

Arxiv

0+阅读 · 2023年5月11日

SalienDet: A Saliency-based Feature Enhancement Algorithm for Object Detection for Autonomous Driving

Arxiv

0+阅读 · 2023年5月11日

Self-Supervised Learning for Recommender Systems: A Survey

Arxiv

12+阅读 · 2022年3月29日

Image Manipulation Detection by Multi-View Multi-Scale Supervision

Arxiv

13+阅读 · 2021年7月25日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

A Survey of Machine Learning for Computer Architecture and Systems

Arxiv

18+阅读 · 2021年2月16日

相关基金

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

基于姿态图及场景描述的服务机器人长期作业环境感知方法

国家自然科学基金

0+阅读 · 2014年12月31日

特殊环境下大型构件全位置焊接移动机器人自主定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩感知的无人机实时鲁棒低功耗海上红外目标检测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

激光扫描视觉提高DGPS/IMU定位定姿可靠性方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

车载INS/WSN/机器视觉组合导航鲁棒滤波方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自主虚拟人智能感知决策与真实感交互表现研究

国家自然科学基金

7+阅读 · 2012年12月31日

面向火星车的复杂环境实时建模与自主行为优化

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟现实中的人类路径整合研究

国家自然科学基金

7+阅读 · 2012年12月31日

基于视皮层感知机制的生物启发运动特征层次化模型

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员