In this paper we present a data-driven approach to obtain the static image of a scene, eliminating dynamic objects that might have been present at the time of traversing the scene with a camera. The general objective is to improve vision-based localization and mapping tasks in dynamic environments, where the presence (or absence) of different dynamic objects in different moments makes these tasks less robust. We introduce an end-to-end deep learning framework to turn images of an urban environment that include dynamic content, such as vehicles or pedestrians, into realistic static frames suitable for localization and mapping. This objective faces two main challenges: detecting the dynamic objects, and inpainting the static occluded back-ground. The first challenge is addressed by the use of a convolutional network that learns a multi-class semantic segmentation of the image. The second challenge is approached with a generative adversarial model that, taking as input the original dynamic image and the computed dynamic/static binary mask, is capable of generating the final static image. This framework makes use of two new losses, one based on image steganalysis techniques, useful to improve the inpainting quality, and another one based on ORB features, designed to enhance feature matching between real and hallucinated image regions. To validate our approach, we perform an extensive evaluation on different tasks that are affected by dynamic entities, i.e., visual odometry, place recognition and multi-view stereo, with the hallucinated images. Code has been made available on https://github.com/bertabescos/EmptyCities_SLAM.


翻译:在本文中,我们展示了一种数据驱动方法,以获取场景的静态图像,消除在用相机巡视场景时可能存在的动态物体。一般目标是改进动态环境中基于视觉的本地化和绘图任务,因为在不同时刻不同动态物体的存在(或不存在)使得这些任务不那么有力。我们引入了一个端到端的深层次学习框架,将包含动态内容的城市环境图像(如车辆或行人)转换成适合本地化和绘图的切合实际的静态框架。这个框架面临两个主要挑战:发现动态对象,对静态的隐蔽图像进行反射。第一个挑战是在动态环境中改进基于视觉的本地化定位和图象的图像定位网络,这个网络通过学习图像的多级的语系语系分布来应对第一个挑战。第二个挑战是使用一个基因对抗模型来应对第二个挑战,该模型将原始动态图像和计算动态/静态的硬面面罩作为输入,能够生成最后静态图像。这个框架使用两个新的损失,一个基于图像识别技术,一个基于静态图解图解图解图解的图象技术,用于改善图像的多层路面的图像质量/轨迹。

0
下载
关闭预览

相关内容

图像修复(英语:Inpainting)指重建的图像和视频中丢失或损坏的部分的过程。例如在博物馆中,这项工作常由经验丰富的博物馆管理员或者艺术品修复师来进行。数码世界中,图像修复又称图像插值或视频插值,指利用复杂的算法来替换已丢失、损坏的图像数据,主要替换一些小区域和瑕疵。
【开放书】SLAM 中的几何与学习方法,62页pdf
专知会员服务
111+阅读 · 2020年6月5日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
【泡泡一分钟】高动态环境的语义单目SLAM
泡泡机器人SLAM
5+阅读 · 2019年3月27日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
Structure Aware SLAM using Quadrics and Planes
Arxiv
4+阅读 · 2018年8月13日
Arxiv
5+阅读 · 2018年4月30日
Arxiv
9+阅读 · 2018年3月10日
VIP会员
相关资讯
跟踪SLAM前沿动态系列之ICCV2019
泡泡机器人SLAM
7+阅读 · 2019年11月23日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
【泡泡一分钟】高动态环境的语义单目SLAM
泡泡机器人SLAM
5+阅读 · 2019年3月27日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
Top
微信扫码咨询专知VIP会员