李飞飞团队新作MaskViT:用于视频预测的掩码视觉预训练

2022 年 6 月 27 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨杨净

来源丨量子位
编辑丨极市平台

极市导读

 

李飞飞团队的最新研究——MaskViT,通过MVM,掩码视觉建模对Transformer进行预训练,从而建立视频预测模型。结果显示,跟以往先进的方法比较,MaskViT都表现出了更好的性能,可生成分辨率达256 × 256的视频。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

人类的预测能力+ViT,会产生什么样的化学反应?会让机器人的行动规划能力又快又准。

这是李飞飞团队的最新研究——MaskViT,通过MVM,掩码视觉建模对Transformer进行预训练,从而建立视频预测模型。

MaskViT: Masked Visual Pre-Training for Video Prediction

论文链接:https://arxiv.org/abs/2206.11894

项目链接:https://maskedvit.github.io/

何恺明论文:https://arxiv.org/abs/2205.09113

结果显示,MaskViT不仅能生成256*256视频,还可以让机器人行动规划的推理速度最高提高了512倍。

来看看这是项什么样的研究?

从人类身上找灵感

神经科学领域的研究表明,人类的认知、感知能力是有一种预测机制来支持的。

这种对世界的预测模型,可以用来模拟、评估和选择不同的可能行动。

对人类来说,这一过程是快速和准确的。

如果能赋予机器人类似的预测能力。那么他们就可以在复杂的动态环境中快速规划、执行各类任务。

比如,通过视觉模型来预测控制,也许就是一种方式,但也对算力和准确性提出了更高的要求。

于是,李飞飞团队就想到了最近诸多进展的ViT架构,以及以何恺明MAE为代表的基于MVM,Masked Visual Modeling这一自监督预训练表征。

但具体要操作起来,仍有不少的技术挑战。

一方面,全局注意力机制的复杂度与输入序列长度的平方呈正比,导致视频处理成本过高。

另一方面,视频预测任务和自回归掩码视觉预训练之间存在不一致。实际测试时,模型必须从头预测完整的未来帧序列,导致视频预测质量不好。

基于这样的背景,李飞飞团队提出了MaskViT——通过掩码视觉建模对Transformer进行预训练,从而建立视频预测模型。

具体有两种设计决策。

首先,为了提高记忆和训练效率,使用了两种类型的窗口注意力:空间注意力和时空注意力

其次,训练过程中掩码的token比例是可变的。在推理阶段,视频是通过迭代细化生成的,其中按照掩码调度函数逐步降低掩码率。

实验结果

研究团队在三个不同数据集,以及四个不同指标来评估了MaskViT。

结果显示,跟以往先进的方法比较,MaskViT都表现出了更好的性能,可生成分辨率达256 × 256的视频。

还在BAIR进行了消融实验。

随后,团队还展示了真实机器人使用MaskViT进行实时规划的效果。

推理速度最高可提升512倍。

研究人员表示,本次工作表明,可以通过最小的领域知识,利用掩码视觉建模的一般框架,赋予像智能体强大的预测模型。

但同时表示,也具有一定的局限性。

比如在每帧量化时会出现闪烁伪影,尤其是在RoboNet这种有静态背景的视频中。

还有如果要扩大视频预测的规模,也仍然具有挑战性,特别是那种有大量摄像机运动的场景。

未来,他们将探索把这一视频预测方法整合到更复杂的规划算法中。

值得一提的是,在今年5月,何恺明团队曾提出过视频版MAE,并发现最佳掩蔽率高达 90%。

公众号后台回复“项目实践”获取50+CV项目实践机会~

△点击卡片关注极市平台,获取 最新CV干货
极市干货
最新数据集资源: 医学图像开源数据集汇总
实操教程 Pytorch - 弹性训练原理分析《CUDA C 编程指南》导读
极视角动态: 极视角作为重点项目入选「2022青岛十大资本青睐企业」榜单! 极视角发布EQP激励计划,招募优质算法团队展开多维度生态合作!


点击阅读原文进入CV社区

收获更多技术干货

登录查看更多
0

相关内容

何恺明组新论文:只用ViT做主干也可以做好目标检测
专知会员服务
29+阅读 · 2022年4月2日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
29+阅读 · 2021年10月13日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
38+阅读 · 2021年5月16日
谷歌提出MaskGIT:掩码生成图像Transformer
CVer
2+阅读 · 2022年3月21日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VMFormer: End-to-End Video Matting with Transformer
Arxiv
0+阅读 · 2022年8月26日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
VMFormer: End-to-End Video Matting with Transformer
Arxiv
0+阅读 · 2022年8月26日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Top
微信扫码咨询专知VIP会员