视频理解在最近取得了显著进展,得益于视频基础模型在自监督预训练目标下的强大表现,其中掩蔽自编码器(MAE)成为首选设计。然而,之前的大多数基于MAE预训练的工作主要集中在较短的视频表示(16/32帧),这主要是由于硬件内存和计算能力的限制,随着视频长度的增加,密集的内存密集型自注意力解码过程的计算和内存开销会急剧增加。为了解决这些挑战,一个自然的策略是对解码过程中的令牌进行子采样重构(或解码器掩蔽)。在本研究中,我们提出了一种有效的策略,通过优先考虑令牌来训练更长的视频序列(128帧),并且比典型的随机和均匀掩蔽策略表现更好。我们方法的核心是一种自适应解码器掩蔽策略,它优先考虑最重要的令牌,并使用量化令牌作为重构目标。我们的自适应策略利用了一个强大的基于MAGVIT的标记器,该标记器共同学习令牌及其优先级。我们通过全面的消融实验验证了设计选择,并观察到长视频(128帧)编码器在性能上超过了短视频(32帧)版本。通过我们提出的长视频掩蔽自编码器(LVMAE)策略,我们在Diving48数据集上超越了最先进的技术3.9个百分点,并在EPIC-Kitchens-100动词分类任务上超越了2.5个百分点,同时我们仅依赖一个简单的核心架构和视频预训练(与一些先前的工作不同,后者需要数百万个带标签的视频-文本对或专用编码器)。 https://arxiv.org/abs/2411.13683

成为VIP会员查看完整内容
0

相关内容

【ICML2024】更快的自适应去中心化学习算法
专知会员服务
21+阅读 · 8月22日
【CVPR2024】Koala: 关键帧条件化长视频语言模型
专知会员服务
12+阅读 · 4月21日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
19+阅读 · 3月31日
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
专知会员服务
12+阅读 · 2021年9月13日
专知会员服务
22+阅读 · 2021年3月23日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
18+阅读 · 2021年10月25日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
400+阅读 · 2023年3月31日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2024】更快的自适应去中心化学习算法
专知会员服务
21+阅读 · 8月22日
【CVPR2024】Koala: 关键帧条件化长视频语言模型
专知会员服务
12+阅读 · 4月21日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
19+阅读 · 3月31日
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
专知会员服务
12+阅读 · 2021年9月13日
专知会员服务
22+阅读 · 2021年3月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员