Meta AI推出“杂食者”：一个模型搞定图像、视频和3D数据三大分类任务，性能还不输独立模型

会员服务 ·

Meta AI推出“杂食者”：一个模型搞定图像、视频和3D数据三大分类任务，性能还不输独立模型

2022 年 1 月 24 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

最近，Meta AI推出了这样一个“杂食者” （Omnivore）模型，可以对不同视觉模态的数据进行分类，包括图像、视频和3D数据。

比如面对最左边的图像，它可以从深度图、单视觉3D图和视频数据集中搜集出与之最匹配的结果。

这在之前，都要分用不同的模型来实现；现在一个模型就搞定了。

而且Omnivore易于训练，使用现成的标准数据集，就能让其性能达到与对应单模型相当甚至更高的水平。

实验结果显示，Omnivore在图像分类数据集ImageNet上能达到86.0%的精度，在用于动作识别的Kinetics数据集上能达84.1%，在用于单视图3D场景分类的SUN RGB-D也获得了67.1%。

另外，Omnivore在实现一切跨模态识别时，都无需访问模态之间的对应关系。

不同视觉模态都能通吃的“杂食者”

Omnivore基于Transformer体系结构，具备该架构特有的灵活性，并针对不同模态的分类任务进行联合训练。

模型架构如下：

Omnivore会将输入的图像、视频和单视图3D图像转换为embedding，并馈送到Transformer中。

虽然它可以使用任何vision transformer架构来处理patch embedding，但鉴于Swin transformer在图像和视频任务上的强大性能，这里就使用该架构作为基础模型。

具体来说，Omnivore将图像转为patch，视频转为时空tube（spatio-temporal tube），单视图3D图像转为RGB patch和深度patch。

然后使用线性层将patches映射到到embedding中。其中对RGB patch使用同一线性层，对深度patch使用单独的。

总的来说，就是通过embedding将所有视觉模式转换为通用格式，然后使用一系列时空注意力（attention）操作来构建不同视觉模式的统一表示。

研究人员在ImageNet-1K数据集、Kinetics-400数据集和SUN RGB-D数据集上联合训练出各种Omnivore模型。

这种方法类似于多任务学习和跨模态对齐，但有2点重要区别：

1、不假设输入观测值对齐（即不假设图像、视频和3D数据之间的对应关系）；

2、也不假设这些数据集共享相同的标签空间（label space）。

性能超SOTA

实验方面，首先将Omnivore与各视觉模态对应的特定模型（下表中指Specific）进行比较。

一共有三种不同的模型尺寸：T、S和B。

预训练模型在七个下游任务上都进行了微调。

图像特定模型在IN1K上预训练。视频特定模型和单视图3D特定模型均使用预训练图像特定模型的inflation进行初始化，并分别在K400和SUN RGB-D上进行微调。

结果发现，Omnivore在几乎所有的下游任务上的性能都相当于或优于各特定模型。

其中尺寸最大的Swin-B实现了全部任务上的SOTA。

将Omnivore与具有相同模型架构和参数数量的特定模型比较也是相同的结果。

其中Omnivore在IN1K、K400和SUN数据集上从头开始联合训练，而特定模态的模型针对每个数据集专门训练：

ImageSwin模型从零开始训练，VideoSwin和DepthSwin模型则从ImageSwin模型上进行微调。

接下来将Omnivore与图像、视频和3D数据分类任务上的SOTA模型进行比较。

结果仍然不错，Omnivore在所有预训练任务中都表现出了优于SOTA模型的性能（下图从上至下分别为图像、视频和3D数据）。

此外，在ImageNet-1K数据集上检索给定RGB图像的深度图也发现，尽管Omnivore没有接受过关于1K深度图的训练，但它也能够给出语义相似的正确答案。

最后，作者表示，尽管这个“杂食者”比传统的特定模式模型有了很多进步，但它有一些局限性。

比如目前它仅适用于单视图3D图像，不适用于其他3D表示，如体素图（voxels）、点云图等。

论文地址：
https://arxiv.org/abs/2201.08377

代码已开源：

https://github.com/facebookresearch/omnivore

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

Omnivore

关注 0

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

【CVPR2021】预训练图像处理Transformer

专知会员服务

46+阅读 · 2021年6月1日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

超越传统微调！Meta新作VPT：视觉Prompt来了！冻结主干，仅调节1%参数，性能提升显著！

CVer

0+阅读 · 2022年3月26日

打打字就能指挥算法视频抠图，Transformer掌握跨模态新技能，精度优于现有模型丨CVPR 2022

量子位

0+阅读 · 2022年3月7日

LeCun看了都说好！Meta AI一次搞定语音、视觉和文本三个SOTA

新智元

1+阅读 · 2022年2月15日

Meta AI新作！用Transformer搞定图像、视频和单视图3D数据三大分类任务！Omnivore：性能还不输独立模型

CVer

0+阅读 · 2022年1月27日

CNN和Transformer再组合！UniFormer：新的主干网络！在六大视觉任务上大放光彩！

CVer

2+阅读 · 2022年1月25日

别再用平均池化层了！Meta AI把注意力塞到池化层，性能立刻提升0.3

新智元

1+阅读 · 2022年1月7日

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

机器之心

0+阅读 · 2021年11月26日

谷歌发布最新看图说话模型，可实现零样本学习，多类型任务也能直接上手

量子位

1+阅读 · 2021年10月24日

训练速度远超3D CNN，提速3倍！Facebook首发「时空版」Transformer

新智元

1+阅读 · 2021年3月18日

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

机器之心

1+阅读 · 2021年3月16日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

基于三维视频多视觉任务协同分析研究

国家自然科学基金

0+阅读 · 2013年12月31日

迁移学习在图像分类中的应用研究

国家自然科学基金

8+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于跨域深度学习的复杂视频场景分类方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于视觉感知机理的林火视频识别模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视频信号空时稀疏的压缩感知重构方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于人类视觉感知的高分辨率卫星遥感图像智能分类方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

A novel three-stage training strategy for long-tailed classification

Arxiv

0+阅读 · 2022年4月20日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月19日

kpfriends at SemEval-2022 Task 2: NEAMER -- Named Entity Augmented Multi-word Expression Recognizer

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

A Contrastive Cross-Channel Data Augmentation Framework for Aspect-based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月16日

Model-agnostic Multi-Domain Learning with Domain-Specific Adapters for Action Recognition

Arxiv

0+阅读 · 2022年4月15日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员