【CVPR2022】高分辨率和多样化的视频-文本预训练模型

2022 年 3 月 6 日 专知

论文题目Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

作者:薛宏伟*,杭天恺*,曾艳红*,孙宇冲*,刘蓓,杨欢,傅建龙,郭百宁

论文概述:我们研究了视频和语言(VL)的联合预训练,以实现跨模态学习并使大量的下游VL任务受益。现有的研究要么是提取低质量的视频特征,要么是学习有限的文本嵌入,而忽略了高分辨率的视频和多样化的语义可以显著增强跨模态学习。在本文中,我们提出了一个新颖的高分辨率和多样化的视频-文本预训练模型(HD-VILA),用于许多视觉任务。我们收集了一个具有两个特性的大型数据集:(1)高分辨率,包括371.5K小时的720p视频,以及(2)多样化,涵盖15个流行的YouTube类别。为了实现VL预训练,我们通过一个混合Transformer和一个多模态Transformer来共同优化HD-VILA模型,前者学习丰富的时空特征,后者进行视频特征与多样化文本的交互。我们的预训练模型在10个VL理解任务和2个文本到视觉的生成任务中取得了最先进的结果。例如,我们在zero-shot MSR-VTT文本到视频检索任务中超越了SOTA模型,相对增加了38.5%R@1,在高分辨率数据集LSMDC中增加了53.6%。学习到的VL嵌入在文本到视觉编辑和超分辨率任务中也能有效地产生视觉效果好、语义上的相关结果。


https://www.zhuanzhi.ai/paper/4687f398dbfa67383a70e3a0cc496620



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

后台回复“VILA” 就可以获取【CVPR2022】高分辨率和多样化的视频-文本预训练模型》专知下载链接


专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资源
登录查看更多
0

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
15+阅读 · 2021年10月4日
专知会员服务
18+阅读 · 2021年9月13日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2022】视频对比学习的概率表示
专知
1+阅读 · 2022年4月12日
【CVPR2021】空间一致性表示学习
专知
0+阅读 · 2021年3月12日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员