3D object reconstructions of transparent and concave structured objects, with inferred material properties, remains an open research problem for robot navigation in unstructured environments. In this paper, we propose a multimodal single- and multi-frame neural network for 3D reconstructions using audio-visual inputs. Our trained reconstruction LSTM autoencoder 3D-MOV accepts multiple inputs to account for a variety of surface types and views. Our neural network produces high-quality 3D reconstructions using voxel representation. Based on Intersection-over-Union (IoU), we evaluate against other baseline methods using synthetic audio-visual datasets ShapeNet and Sound20K with impact sounds and bounding box annotations. To the best of our knowledge, our single- and multi-frame model is the first audio-visual reconstruction neural network for 3D geometry and material representation.


翻译:3D目标的透明、凝固结构物体的重建,加上推断的物质特性,仍然是在非结构化环境中机器人导航的一个公开研究问题。在本文件中,我们提议利用视听投入为3D重建建立一个多式单一和多框架神经网络。我们经过训练的重建LSTM自动编码器 3D-MOV接受多种投入,以考虑各种表面类型和观点。我们的神经网络利用 voxel 代表制,产生了高质量的3D重建。根据交叉联盟(IoU),我们用合成视听数据集ShapeNet和Sound20K(Sound20K)的冲击声和捆绑框说明来对照其他基线方法进行评估。我们最了解的是,我们的单一和多框架模型是第一个用于3D几何和材料代表制的视听重建神经网络。

0
下载
关闭预览

相关内容

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。 物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。后者一般称为三维重建过程,三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术,包括数据获取、预处理、点云拼接和特征分析等步骤。
专知会员服务
77+阅读 · 2021年3月16日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
85+阅读 · 2020年9月30日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
182+阅读 · 2020年9月7日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
计算机视觉领域顶会CVPR 2018 接受论文列表
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关资讯
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
计算机视觉领域顶会CVPR 2018 接受论文列表
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员