视频-文本Transformer学会跨帧建模时间关系吗?尽管具有巨大的容量和丰富的多模态训练数据,但最近的工作表明视频文本模型倾向于基于框架的空间表示,而时间推理在很大程度上仍未得到解决。本文确定了视频文本transformer时间学习中的几个关键挑战:有限网络大小的时空权衡;多帧建模中的维数灾难问题以及随着剪接长度的增加语义信息的收益递减。在这些发现的指导下,本文提出SViTT,一种稀疏视频-文本架构,执行多帧推理,成本明显低于朴素密集注意力transformer。与基于图的网络类似,SViTT采用了两种形式的稀疏性:边的稀疏性,限制了自注意力中token之间的查询键通信,以及节点的稀疏性,丢弃了没有信息的视觉token。SViTT使用随剪辑长度增加模型稀疏性的课程进行训练,在多个视频-文本检索和问答基准上优于密集transformer基线,计算成本很小。

项目页面:http://svcl.ucsd.edu/projects/svitt。

成为VIP会员查看完整内容
23

相关内容

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,创下新纪录,今年接收了 2360 篇论文,接收率为 25.78%。作为对比,去年有 8100 多篇有效投稿,大会接收了 2067 篇,接收率为 25%。
【KDD2023】学习语言表示用于序列推荐
专知会员服务
10+阅读 · 2023年5月27日
【CVPR2023】带缺失模态多模态提示的视觉识别
专知会员服务
22+阅读 · 2023年3月10日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
29+阅读 · 2021年7月30日
【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理
专知会员服务
62+阅读 · 2021年3月12日
ACL 2022 | 无监督句表示的去偏对比学习
RUC AI Box
0+阅读 · 2022年6月4日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月2日
Arxiv
20+阅读 · 2021年9月21日
VIP会员
相关VIP内容
【KDD2023】学习语言表示用于序列推荐
专知会员服务
10+阅读 · 2023年5月27日
【CVPR2023】带缺失模态多模态提示的视觉识别
专知会员服务
22+阅读 · 2023年3月10日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
29+阅读 · 2021年7月30日
【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理
专知会员服务
62+阅读 · 2021年3月12日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员