GluonCV 0.8 助力街景分析

2020 年 9 月 15 日 ApacheMXNet

街景分析是计算机视觉应用最广泛的一个领域之一,越来越多的项目正在围绕街景展开,比如生成一个交互式的虚拟城市,建造一个属于自己的无人车等等。最近,OpenBot项目的推出大大降低了小机器人成本。一部旧的智能手机加上一个电动车身,不到 400 软妹币,你就可以造出一个先进的小机器人,行人跟踪和自主导航都不在话下。想必很多人都很心动,正准备打造一个属于自己的无人车吧。基于这波热潮,我们在 GluonCV 最新发布的 0.8 版中引入了一个新的任务:深度估计。同时,这次发布还有更多的语义分割模型,一起助力街景分析。

深度估计

场景深度估计是一个经典的计算机视觉问题,是从平面图片中推测场景几何关系的重要一步。它的目的就是要去预测平面图片中每个像素的深度,简单地说,就是每个像素离你有多远。一旦有了精确的深度估计,你的无人车就能很大程度上做到避撞了。废话不多说,上图为证:

最近,自监督深度估计取得了重大的进展,尤其是 monodepth2[1] 这个代表性的工作,深受广大从业者好评。于是,我们在 GluonCV 0.8 中提供了 monodepth2 的各种实现,包括单目,双目,单双目混合的三种模式。我们的模型完美复现了作者论文中的效果,同时还提供训练日志当做参考,免去大家复现的烦恼。

为了帮助大家快速上车,我们还提供了一系列的教程,包括如何估计一张图的深度信息,如何分析一段视频的深度信息,如何训练一个 monodepth2 的模型以及如何使用 PoseNet 去估计物体在一段视频中的轨迹。感兴趣的小伙伴现在就可以试起来啦。

更多更快的语义分割模型

语义分割一直是街景分析中的重头戏。很多算法不仅可以做语义分割,也可以直接拿来做可驾驶道路检测。深度估计配上语义分割,你的无人车离自主导航就不远了。在这次 GluonCV 0.8 的发布中,我们引入了一个更强的模型 DANet[2] 和一个更快的模型 FastSCNN[3],满足你的各种需求。且看他们在 Cityscapes 数据集上的表现:

需要特别指出的是,表中的 FastSCNN 模型得到了我们最新论文的加持,通过半监督学习生成大量伪标签,在不使用任何额外标注数据的情况下就能得到高达 72.3 的 mIoU,这个数字远高于原文中的 68.6。在 V100 显卡上,FastSCNN 可以在 1024x2048 的视频上跑到 80fps,是部署到小机器人上的不二人选。近期我们还会发布论文中的另一个强力实时模型,达到 78.3 mIoU 的 BiSeNet,敬请期待。

想在你的数据集上训练分割模型?没问题,我们也提供了大量教程。同时,你也可以尝试我们最新论文中的方法,只需少量标注数据,就可以训练一个相当不错的分割模型,具体细节请猛戳论文[4]。

结语

本次 GluonCV 0.8 囊括了 monodepth2,DANet 和 FastSCNN 三个算法,可以顺利帮你分析街景,造一个属于你自己的无人车。然而我们想说的是,这些算法本身是通用的,并不局限于街景分析,比如你也可以用我们的代码训练室内深度估计模型。所以欢迎多多关注使用 GluonCV,也欢迎给我们留 issue 开 PR,感谢小伙伴们一直以来的支持!

相关链接


[1] https://arxiv.org/abs/1806.01260

[2] https://arxiv.org/abs/1809.02983

[3] https://arxiv.org/abs/1902.04502

[4] https://arxiv.org/abs/2004.14960


喜欢我们的工作并且希望支持更多的更新,欢迎点赞加星 Fork!

登录查看更多
1

相关内容

专知会员服务
13+阅读 · 2020年9月19日
高效医疗图像分析的统一表示
专知会员服务
35+阅读 · 2020年6月23日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
专知会员服务
163+阅读 · 2020年4月21日
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
91+阅读 · 2020年4月7日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
36+阅读 · 2019年12月15日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
倾斜摄影用真三维与电影完美相结合
无人机
9+阅读 · 2018年12月4日
如何将深度学习应用于无人机图像的目标检测
AI研习社
7+阅读 · 2018年12月2日
利用DeepLab在Tensorflow中进行语义图像分割
机器学习研究会
9+阅读 · 2018年3月22日
基于图像的场景三维建模
计算机视觉战队
13+阅读 · 2018年3月17日
VisualData 公布Matterport 3D重建数据集
AR酱
10+阅读 · 2017年10月8日
Arxiv
0+阅读 · 2020年12月3日
Arxiv
0+阅读 · 2020年11月27日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关VIP内容
专知会员服务
13+阅读 · 2020年9月19日
高效医疗图像分析的统一表示
专知会员服务
35+阅读 · 2020年6月23日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
专知会员服务
163+阅读 · 2020年4月21日
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
91+阅读 · 2020年4月7日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
36+阅读 · 2019年12月15日
相关资讯
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
倾斜摄影用真三维与电影完美相结合
无人机
9+阅读 · 2018年12月4日
如何将深度学习应用于无人机图像的目标检测
AI研习社
7+阅读 · 2018年12月2日
利用DeepLab在Tensorflow中进行语义图像分割
机器学习研究会
9+阅读 · 2018年3月22日
基于图像的场景三维建模
计算机视觉战队
13+阅读 · 2018年3月17日
VisualData 公布Matterport 3D重建数据集
AR酱
10+阅读 · 2017年10月8日
Top
微信扫码咨询专知VIP会员