【CVPR2022】高分辨率和多样化的视频-文本预训练模型 - 专知

会员服务 ·

0

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

2022 年 3 月 6 日 专知

论文题目：Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

作者：薛宏伟*，杭天恺*，曾艳红*，孙宇冲*，刘蓓，杨欢，傅建龙，郭百宁

论文概述：我们研究了视频和语言（VL）的联合预训练，以实现跨模态学习并使大量的下游VL任务受益。现有的研究要么是提取低质量的视频特征，要么是学习有限的文本嵌入，而忽略了高分辨率的视频和多样化的语义可以显著增强跨模态学习。在本文中，我们提出了一个新颖的高分辨率和多样化的视频-文本预训练模型（HD-VILA），用于许多视觉任务。我们收集了一个具有两个特性的大型数据集：（1）高分辨率，包括371.5K小时的720p视频，以及（2）多样化，涵盖15个流行的YouTube类别。为了实现VL预训练，我们通过一个混合Transformer和一个多模态Transformer来共同优化HD-VILA模型，前者学习丰富的时空特征，后者进行视频特征与多样化文本的交互。我们的预训练模型在10个VL理解任务和2个文本到视觉的生成任务中取得了最先进的结果。例如，我们在zero-shot MSR-VTT文本到视频检索任务中超越了SOTA模型，相对增加了38.5％R@1，在高分辨率数据集LSMDC中增加了53.6％。学习到的VL嵌入在文本到视觉编辑和超分辨率任务中也能有效地产生视觉效果好、语义上的相关结果。

https://www.zhuanzhi.ai/paper/4687f398dbfa67383a70e3a0cc496620

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VILA” 就可以获取《【CVPR2022】高分辨率和多样化的视频-文本预训练模型》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

0

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知

0+阅读 · 2022年2月26日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知

0+阅读 · 2021年11月23日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

网络环境下基于视觉显著性的图像检索

国家自然科学基金

1+阅读 · 2014年12月31日

高分辨率遥感影像多特征稀疏表达与智能理解方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

空间编码可控的快速MRI高分辨率图像稀疏重建

国家自然科学基金

1+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

VIP会员

相关主题

预训练模型

相关VIP内容

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

星链与未来战争

《黑蜂（Black Hummingbird）微型无人机》

《全球地缘政治环境中的反无人机系统互操作性》252页

《美国：为自动驾驶汽车铺平道路——未来出行已来》最新43页报告

相关资讯

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知

0+阅读 · 2022年2月26日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知

0+阅读 · 2021年11月23日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

相关基金

网络环境下基于视觉显著性的图像检索

国家自然科学基金

1+阅读 · 2014年12月31日

高分辨率遥感影像多特征稀疏表达与智能理解方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

空间编码可控的快速MRI高分辨率图像稀疏重建

国家自然科学基金

1+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

相关论文

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

大家都在搜

分布式事务

大型语言模型

蓝牙安全攻防

GitHub上已超过

微信扫码咨询专知VIP会员