CV进入三维时代！Facebook在ICCV 2021 发布两个3D模型，自监督才是终极答案？

会员服务 ·

CV进入三维时代！Facebook在ICCV 2021 发布两个3D模型，自监督才是终极答案？

2021 年 10 月 20 日 新智元

新智元报道

来源：Facebook AI

编辑：LRS

【新智元导读】长久以来CV的训练一直停留在二维数据上，三维数据因为标注成本高等原因都需要专业人员来开发专用模型。Facebook在ICCV 2021 发布两个3D模型3DETR和DepthContrast，将模型的通用性全面升级，也许标志着CV研究全面进入三维时代！

从大规模的数据中进行预训练，在计算机视觉中得到了广泛应用，也是在特定任务上得到高性能模型的基础。

但这种方法有一个致命缺陷，那就是如果目标数据类型还没有大量标注数据的话，就没办法使用这种模式。

例如3D 扫描、识别的标注数据集就很稀缺，主要是因为3D 数据集的标注十分耗时，并且用于 3D 理解的模型通常依赖于与用于训练的特定 3D 数据集的手工架构设计。

在 ICCV 2021 上，Facebook AI提出了两个新模型3DETR和DepthContrast，这两个互补的新模型可促进3D理解并更容易上手。新模型建立了简化的3D理解的通用架构，并且能够通过不需要标签的自监督学习方法来解决这些问题。

代码目前也已开源。

出于各种原因，目前的CV 模型还主要集中在二维图片，但构建机器以了解有关世界的 3D 数据非常重要。例如自动驾驶汽车需要 3D 理解才能移动并避免撞到障碍物，而 AR/VR 应用程序可以帮助人们完成实际任务，例如可以可视化沙发是否适合客厅。

来自 2D 图像和视频的数据表示为规则的像素网格，而 3D 数据则反映为点坐标。由于 3D 数据更难获取和标记，因此 3D 数据集通常也比图像和视频数据集小得多。这意味着它们通常在整体大小和它们包含的类或概念的数量方面受到限制。

以前，专注于 3D 理解的从业者需要大量的领域知识来调整标准的 CV 架构。单视图 3D 数据（取自一台同时记录深度信息的相机）比多视图 3D 更容易收集，后者利用两个或更多相机记录同一场景。多视图3D数据往往是通过对单视图3D进行后处理生成的，但是这个处理步骤有失败的可能，一些研究人员估计，由于源图像模糊或相机运动过度等原因，这个失败率可能高达 78%。

DepthContrast 主要解决了这些数据上的问题，因为它可以从任何 3D 数据（无论是单视图还是多视图）训练自监督模型，因此消除了处理小型未标记数据集的挑战。一般的CV 模型即使是对大量 2D 图像或视频进行预训练也不太可能为 AR/VR 等复杂应用产生准确的 3D 理解。

https://arxiv.org/abs/2101.02691

自监督学习一直是研究界和FAIR的主要兴趣领域， DepthContrast也是业界在不使用标记数据的情况下学习强大3D表示的最新尝试。这项研究继承自FAIR 之前的工作PointContrast，也是3D的一种自我监督技术。

现在获得3D数据的机会很多。传感器和多视图立体算法通常为视频或图像提供补充信息。然而，理解这些数据以前一直是一个挑战，因为3D数据具有不同的物理特性，这取决于它的获取方式和位置。

例如，与来自室外传感器（如 LiDAR）的数据相比，来自商用手机传感器的深度数据看起来非常不同。AI研究中使用的大多数3D数据都是以单视图深度图的形式获取的，这些数据通过为3D registration的步骤进行后处理以获得多视图3D。先前的工作依赖于多视图3D数据来学习自监督特征，训练目标主要考虑3D点对应关系。

虽然将单视图数据转换为多视图数据的失败率很高，但DepthContrast表明仅使用单视图3D数据就足以学习最先进的3D特征。

使用3D数据增强可以从单视图深度图生成略有不同的3D深度图。DepthContrast通过使用对比学习来对齐从这些增强深度图获得的特征来实现这一点。

并且研究结果表明该学习信号可用于预训练不同类型的3D架构，例如PointNet++和Sparse ConvNets。

更重要的是，DepthContrast可以应用于任何类型的3D数据，无论是在室内还是室外，单视图还是多视图。我们的研究表明，使用DepthContrast预训练的模型在ScanNet 3D检测基准上绝对是最先进的。

DepthContrast的功能在形状分类、对象检测和分割等任务的各种3D基准测试中提供了增益。

DepthContrast表明自监督学习也有希望用于3D理解。事实上，DepthContrast分享了学习增强不变特征的基本原理，该原理已被用于支持自监督模型，例如Facebook AI的SEER。

第二个工作3DETR是3D Detection Transformer的缩写。该模型是一种基于Transformer的简单三维检测和分类架构，可作为检测和分类任务的通用三维模型，该模型简化了用于训练3D检测模型的损失函数，更容易实现。它的性能也相当于或超过了依赖于手动调整的3D架构和损耗函数的现有最先进的方法。

https://arxiv.org/abs/2109.08141

3DETR将三维场景（表示为点云或一组XYZ点坐标）作为输入，并为场景中的对象生成一组三维边界框。这项新的研究建立在VoteNet和Detection Transformers（DETR）的基础上，其中VoteNet是FAIR在3D点云中检测物体的模型，DETR是Facebook AI为重新定义物体检测挑战而创建的一种更简单的架构。