Can conversational videos captured from multiple egocentric viewpoints reveal the map of a scene in a cost-efficient way? We seek to answer this question by proposing a new problem: efficiently building the map of a previously unseen 3D environment by exploiting shared information in the egocentric audio-visual observations of participants in a natural conversation. Our hypothesis is that as multiple people ("egos") move in a scene and talk among themselves, they receive rich audio-visual cues that can help uncover the unseen areas of the scene. Given the high cost of continuously processing egocentric visual streams, we further explore how to actively coordinate the sampling of visual information, so as to minimize redundancy and reduce power use. To that end, we present an audio-visual deep reinforcement learning approach that works with our shared scene mapper to selectively turn on the camera to efficiently chart out the space. We evaluate the approach using a state-of-the-art audio-visual simulator for 3D scenes as well as real-world video. Our model outperforms previous state-of-the-art mapping methods, and achieves an excellent cost-accuracy tradeoff. Project: http://vision.cs.utexas.edu/projects/chat2map.


翻译:能否从多个自我中获取的对话视频有效地揭示场景的地图,以一种成本高效的方式?我们通过提出一个新的问题来回答这个问题:通过利用自然对话中参与者的自我中心的音频视觉观察中的共享信息,有效地构建先前未见过的3D环境的地图。我们的假设是,随着多个人("自我")在场景中移动并互相交谈,他们会收到丰富的音频视觉线索,可以帮助揭示场景中的未见区域。鉴于持续处理自我中心视觉流的高成本,我们进一步探讨如何积极协调视觉信息的采样,从而最小化冗余并减少功耗。为此,我们提出了一种音频视觉深度强化学习方法,与我们的共享场景映射器一起工作,有选择地打开相机以高效绘制空间。我们使用最先进的3D场景音频视觉模拟器以及真实世界视频来评估该方法。我们的模型优于以前的最新地图制作方法,并实现了极佳的成本-精度权衡。项目网址:http://vision.cs.utexas.edu/projects/chat2map.

0
下载
关闭预览

相关内容

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【泡泡一分钟】用于视角可变重定位的语义地图构建
泡泡机器人SLAM
19+阅读 · 2019年10月21日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
35+阅读 · 2022年3月14日
VIP会员
相关VIP内容
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员