李飞飞团队新作MaskViT：用于视频预测的掩码视觉预训练

会员服务 ·

李飞飞团队新作MaskViT：用于视频预测的掩码视觉预训练

2022 年 6 月 27 日 极市平台

↑ 点击蓝字关注极市平台

作者丨杨净

来源丨量子位

编辑丨极市平台

极市导读

李飞飞团队的最新研究——MaskViT，通过MVM，掩码视觉建模对Transformer进行预训练，从而建立视频预测模型。结果显示，跟以往先进的方法比较，MaskViT都表现出了更好的性能，可生成分辨率达256 × 256的视频。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

人类的预测能力+ViT，会产生什么样的化学反应？会让机器人的行动规划能力又快又准。

这是李飞飞团队的最新研究——MaskViT，通过MVM，掩码视觉建模对Transformer进行预训练，从而建立视频预测模型。

MaskViT: Masked Visual Pre-Training for Video Prediction

论文链接：https://arxiv.org/abs/2206.11894

项目链接：https://maskedvit.github.io/

何恺明论文：https://arxiv.org/abs/2205.09113

结果显示，MaskViT不仅能生成256*256视频，还可以让机器人行动规划的推理速度最高提高了512倍。

来看看这是项什么样的研究？

从人类身上找灵感

神经科学领域的研究表明，人类的认知、感知能力是有一种预测机制来支持的。

这种对世界的预测模型，可以用来模拟、评估和选择不同的可能行动。

对人类来说，这一过程是快速和准确的。

如果能赋予机器人类似的预测能力。那么他们就可以在复杂的动态环境中快速规划、执行各类任务。

比如，通过视觉模型来预测控制，也许就是一种方式，但也对算力和准确性提出了更高的要求。

于是，李飞飞团队就想到了最近诸多进展的ViT架构，以及以何恺明MAE为代表的基于MVM，Masked Visual Modeling这一自监督预训练表征。

但具体要操作起来，仍有不少的技术挑战。

一方面，全局注意力机制的复杂度与输入序列长度的平方呈正比，导致视频处理成本过高。

另一方面，视频预测任务和自回归掩码视觉预训练之间存在不一致。实际测试时，模型必须从头预测完整的未来帧序列，导致视频预测质量不好。

基于这样的背景，李飞飞团队提出了MaskViT——通过掩码视觉建模对Transformer进行预训练，从而建立视频预测模型。

具体有两种设计决策。

首先，为了提高记忆和训练效率，使用了两种类型的窗口注意力：空间注意力和时空注意力。

其次，训练过程中掩码的token比例是可变的。在推理阶段，视频是通过迭代细化生成的，其中按照掩码调度函数逐步降低掩码率。

实验结果

研究团队在三个不同数据集，以及四个不同指标来评估了MaskViT。

结果显示，跟以往先进的方法比较，MaskViT都表现出了更好的性能，可生成分辨率达256 × 256的视频。

还在BAIR进行了消融实验。

随后，团队还展示了真实机器人使用MaskViT进行实时规划的效果。

推理速度最高可提升512倍。

研究人员表示，本次工作表明，可以通过最小的领域知识，利用掩码视觉建模的一般框架，赋予像智能体强大的预测模型。

但同时表示，也具有一定的局限性。

比如在每帧量化时会出现闪烁伪影，尤其是在RoboNet这种有静态背景的视频中。

还有如果要扩大视频预测的规模，也仍然具有挑战性，特别是那种有大量摄像机运动的场景。

未来，他们将探索把这一视频预测方法整合到更复杂的规划算法中。

值得一提的是，在今年5月，何恺明团队曾提出过视频版MAE，并发现最佳掩蔽率高达 90%。

公众号后台回复“项目实践”获取50+CV项目实践机会～

△点击卡片关注极市平台，获取最新CV干货

极市干货

最新数据集资源：医学图像开源数据集汇总

实操教程：Pytorch - 弹性训练原理分析｜《CUDA C 编程指南》导读

极视角动态：极视角作为重点项目入选「2022青岛十大资本青睐企业」榜单！｜极视角发布EQP激励计划，招募优质算法团队展开多维度生态合作！

“

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多

相关内容

视频预测

关注 1

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

何恺明组新论文：只用ViT做主干也可以做好目标检测

专知会员服务

30+阅读 · 2022年4月2日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

ICCV 2021最佳论文出炉！微软Swin Transformer摘得马尔奖

专知会员服务

30+阅读 · 2021年10月13日

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

ECCV2022｜何恺明团队开源ViTDet：只用普通ViT，不做分层设计也能搞定目标检测

极市平台

0+阅读 · 2022年7月15日

CVPR 2022 | 视频Transformer自监督预训练新范式！复旦&微软提出BEVT：实现视频识别新SOTA

CVer

0+阅读 · 2022年4月25日

CVPR 2022 | 视频Transformer自监督预训练新范式，复旦、微软云AI实现视频识别新SOTA

机器之心

0+阅读 · 2022年4月23日

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

MAE同期工作！MSRA新作SimMIM收录CVPR 2022！高达87.1%准确率！掩码图像建模新框架

CVer

1+阅读 · 2022年4月14日

何恺明团队新作ViTDet：用于目标检测的视觉Transformer主干网络

CVer

1+阅读 · 2022年4月2日

何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

量子位

1+阅读 · 2022年4月1日

谷歌提出MaskGIT：掩码生成图像Transformer

CVer

2+阅读 · 2022年3月21日

FAIR新作MaskFeat：自监督视觉预训练新方法！部分超越何恺明MAE！灵感竟来自16年前CVPR论文

CVer

0+阅读 · 2021年12月21日

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

新智元

3+阅读 · 2021年11月13日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多粒度超启发计算方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

视觉学习与人脑可塑性

国家自然科学基金

3+阅读 · 2014年12月31日

基于动觉/力觉导航的机器人共享控制策略研究

国家自然科学基金

0+阅读 · 2013年12月31日

云计算环境下基于用户行为的资源调度机制的研究

国家自然科学基金

1+阅读 · 2013年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

精细微打印高效光子晶体化学传感器微芯片研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

超洛伦兹-高斯光束的构建及其用于表征大角度激光束的研究

国家自然科学基金

0+阅读 · 2009年12月31日

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

Arxiv

0+阅读 · 2022年8月31日

ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers

Arxiv

0+阅读 · 2022年8月28日

VMFormer: End-to-End Video Matting with Transformer

Arxiv

0+阅读 · 2022年8月26日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员