近期,自监督学习技术的进步,如遮罩自编码器(MAE),极大地影响了图像和视频的视觉表示学习。然而,值得注意的是,现有的遮罩图像/视频建模方法过度依赖于资源密集型的视觉变换器(ViTs)作为特征编码器。在本文中,我们提出了一种新的方法,称为VideoMAC,它将视频遮罩自编码器与资源友好的卷积神经网络(ConvNets)结合起来。具体来说,VideoMAC采用对随机采样的视频帧对进行对称遮罩。为了防止遮罩模式的消散问题,我们使用了采用稀疏卷积操作符实现的ConvNets作为编码器。同时,我们提出了一种简单而有效的遮罩视频建模(MVM)方法,这是一种双编码器架构,包括一个在线编码器和一个指数移动平均目标编码器,旨在促进视频中帧间重建的一致性。此外,我们展示了VideoMAC通过赋予经典(ResNet)/现代(ConvNeXt)卷积编码器利用MVM的优势,比基于ViT的方法在下游任务上表现更佳,包括视频对象分割(+5.2% / 6.4% J&F)、身体部位传播(+6.3% / 3.1% mIoU)和人体姿态跟踪(+10.2% / 11.1% PCK@0.1)。

成为VIP会员查看完整内容
16

相关内容

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习
专知会员服务
31+阅读 · 2022年10月6日
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ICML2022】用于视频恢复的无监督流对齐序列到序列学习
专知会员服务
15+阅读 · 2021年9月15日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
37+阅读 · 2021年5月28日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【NeurIPS2022】VICRegL:局部视觉特征的自监督学习
专知会员服务
31+阅读 · 2022年10月6日
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ICML2022】用于视频恢复的无监督流对齐序列到序列学习
专知会员服务
15+阅读 · 2021年9月15日
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
37+阅读 · 2021年5月28日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员