【泡泡一分钟】预测未来更深层次的语义分割 (ICCV2017-63)

会员服务 ·

【泡泡一分钟】预测未来更深层次的语义分割 (ICCV2017-63)

2018 年 8 月 4 日 泡泡机器人SLAM

每天一分钟，带你读遍机器人顶级会议文章

标题：Predicting Deeper into the Future of Semantic Segmentation

作者：Pauline Luc, Natalia Neverova, Camille Couprie, Jakob Verbeek, Yann LeCun

来源：ICCV 2017 ( IEEE International Conference on Computer Vision )

播音员：Suzanne

编译：张鲁，周平（68）

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

预测和预知是所谓智能的重要属性。它们在实时系统中也是极为重要的，例如在机器人或者自动驾驶这种需要基于视觉场景理解来进行行为决策的领域中。虽然对未来视频帧中的原始RGB像素值的预测已有相关的研究，我们会在这里介绍预测未来帧语义分割的新任务。

给定一个视频帧序列，我们的目标是预测在将来一秒或更远时间的尚未观察到的视频帧的分割图。我们开发了一个自回归卷积神经网络，学习迭代生成多个帧。我们在Cityscapes数据集上的测试结果表明直接预测未来帧的语义分割的效果会优于先预测RGB帧再进行语义分割的方法。未来半秒的预测结果视觉上看起来是非常可信的，并且精度大幅度优于使用光流辅助语义分割之类的基准方法。

图1. 我们的模型可以学习语义级别的场景中的动态信息，从而可以通过若干过去的图像帧来预测未被观测到的将来的图像帧的语义分割结果。

图2. S2S模型的多尺度结构，该模型可以在给定N_I个视频帧后预测出下一时刻视频帧的语义分割结果。

Abstract

The ability to predict and therefore to anticipate the future is an important attribute of intelligence. It is also of utmost importance in real-time systems, e.g. in robotics or autonomous driving, which depend on visual scene understanding for decision making. While prediction of the raw RGB pixel values in future video frames has been studied in previous work, here we introduce the novel task of predicting semantic segmentations of future frames. Given a sequence of video frames, our goal is to predict segmentation maps of not yet observed video frames that lie up to a second or further in the future. We develop an autoregressive convolutional neural network that learns to iteratively generate multiple frames. Our results on the Cityscapes dataset show that directly predicting future segmentations is substantially better than predicting and then segmenting future RGB frames. Prediction results up to half a second in the future are visually convincing and are much more accurate than those of a baseline based on warping semantic segmentations using optical flow.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号（paopaorobot_slam）。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多

相关内容

ICCV

关注 598

ICCV 的全称是 IEEE International Conference on Computer Vision，即国际计算机视觉大会，由IEEE主办，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV，ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低，是三大会议中公认级别最高的。ICCV会议时间通常在四到五天，相关领域的专家将会展示最新的研究成果。

【CVPR2020-Oral】用于深度网络的任务感知超参数

专知会员服务

28+阅读 · 2020年5月25日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日