Narrated instructional videos often show and describe manipulations of similar objects, e.g., repairing a particular model of a car or laptop. In this work we aim to reconstruct such objects and to localize associated narrations in 3D. Contrary to the standard scenario of instance-level 3D reconstruction, where identical objects or scenes are present in all views, objects in different instructional videos may have large appearance variations given varying conditions and versions of the same product. Narrations may also have large variation in natural language expressions. We address these challenges by three contributions. First, we propose an approach for correspondence estimation combining learnt local features and dense flow. Second, we design a two-step divide and conquer reconstruction approach where the initial 3D reconstructions of individual videos are combined into a 3D alignment graph. Finally, we propose an unsupervised approach to ground natural language in obtained 3D reconstructions. We demonstrate the effectiveness of our approach for the domain of car maintenance. Given raw instructional videos and no manual supervision, our method successfully reconstructs engines of different car models and associates textual descriptions with corresponding objects in 3D.


翻译:叙述式教学录像往往显示和描述类似物体的操纵,例如修理汽车或膝上型号的特定模型或膝上型计算机。在这项工作中,我们的目标是重建这些物体并将相关的叙述定位为3D。 与3D重建的标准情景相反,所有观点中都存在相同的物体或场景,不同教学录像中的物体由于同一产品的条件和版本不同,其外观可能差异很大。叙述式在自然语言表达方式上也可能有很大差异。我们用三种贡献来应对这些挑战。首先,我们建议用三种贡献来应对这些挑战。首先,我们建议用一种方法进行通信估计,将所学到的地方特征和密集流量结合起来。第二,我们设计了一种两步分化和征服重建方法,将单个视频最初的3D重建合并为3D对齐图。最后,我们提出一种不统一的方法,在获得3D重建时将自然语言置于地面上。我们展示了我们维护汽车领域的方法的有效性。鉴于原始指导性视频和没有手动监督,我们的方法成功地重建了不同汽车模型的引擎和与3D中相应对象的文本描述。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【Cell】神经算法推理,Neural algorithmic reasoning
专知会员服务
29+阅读 · 2021年7月16日
【论文扩展】欧洲语言网格:概述
专知会员服务
7+阅读 · 2020年3月31日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
“CVPR 2020 接受论文列表 1470篇论文都在这了
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月28日
Arxiv
5+阅读 · 2018年3月30日
Arxiv
5+阅读 · 2018年1月17日
VIP会员
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员