【CVPR2022】高分辨率和多样化的视频-文本预训练模型 - 专知VIP

会员服务 ·

2

CVPR 2022 · 视觉语言建模 · 预训练语言模型 · 论文 ·

2022 年 3 月 6 日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目：Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

作者：薛宏伟*，杭天恺*，曾艳红*，孙宇冲*，刘蓓，杨欢，傅建龙，郭百宁论文概述：我们研究了视频和语言（VL）的联合预训练，以实现跨模态学习并使大量的下游VL任务受益。现有的研究要么是提取低质量的视频特征，要么是学习有限的文本嵌入，而忽略了高分辨率的视频和多样化的语义可以显著增强跨模态学习。在本文中，我们提出了一个新颖的高分辨率和多样化的视频-文本预训练模型（HD-VILA），用于许多视觉任务。我们收集了一个具有两个特性的大型数据集：（1）高分辨率，包括371.5K小时的720p视频，以及（2）多样化，涵盖15个流行的YouTube类别。为了实现VL预训练，我们通过一个混合Transformer和一个多模态Transformer来共同优化HD-VILA模型，前者学习丰富的时空特征，后者进行视频特征与多样化文本的交互。我们的预训练模型在10个VL理解任务和2个文本到视觉的生成任务中取得了最先进的结果。例如，我们在zero-shot MSR-VTT文本到视频检索任务中超越了SOTA模型，相对增加了38.5％R@1，在高分辨率数据集LSMDC中增加了53.6％。学习到的VL嵌入在文本到视觉编辑和超分辨率任务中也能有效地产生视觉效果好、语义上的相关结果。

https://www.zhuanzhi.ai/paper/4687f398dbfa67383a70e3a0cc496620

成为VIP会员查看完整内容

10

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

【CVPR2022】任务相关解耦及可控伪样本生成的非生成式广义零样本模型

【CVPR2022】任务相关解耦及可控伪样本生成的非生成式广义零样本模型

专知

4+阅读 · 2022年4月1日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【干货】多文本人脸生成

【干货】多文本人脸生成

中国图象图形学学会CSIG

2+阅读 · 2021年12月14日

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

THU数据派

3+阅读 · 2021年11月26日

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

中国图象图形学学会CSIG

0+阅读 · 2021年11月5日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

CVPR 2021 论文大盘点-文本图像篇

CVPR 2021 论文大盘点-文本图像篇

极市平台

1+阅读 · 2021年9月21日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

网络环境下基于视觉显著性的图像检索

国家自然科学基金

1+阅读 · 2014年12月31日

基于深层神经网络的多模态快速稀疏表征器

国家自然科学基金

3+阅读 · 2014年12月31日

大尺寸高分辨率差异图像的结构化分层细分配准研究

国家自然科学基金

0+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

时空多分辨率遥感影像融合的模型与方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

空间编码可控的快速MRI高分辨率图像稀疏重建

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉显著性的图像内容分析与检索

国家自然科学基金

0+阅读 · 2011年12月31日

视频序列的自适应超分辨率盲重建技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

融合显式和隐含语义概念的视频检索技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

K-LITE: Learning Transferable Visual Models with External Knowledge

Arxiv

2+阅读 · 2022年4月20日

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals

Arxiv

0+阅读 · 2022年4月16日

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Arxiv

0+阅读 · 2022年4月15日

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

Arxiv

14+阅读 · 2020年12月22日

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

Arxiv

15+阅读 · 2020年5月13日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

VIP会员

相关主题

视觉语言建模

预训练语言模型

相关VIP内容

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

【CVPR 2022】利用大规模视频转录推进高分辨率视频语言表示，Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【NTU博士论文】反事实推理在多模态对话生成中的应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

ICCV最佳论文出炉，朱俊彦团队用砖块积木摘得桂冠

面向具身操作的高效视觉–语言–动作模型：系统综述

相关资讯

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

【CVPR2022】任务相关解耦及可控伪样本生成的非生成式广义零样本模型

【CVPR2022】任务相关解耦及可控伪样本生成的非生成式广义零样本模型

专知

4+阅读 · 2022年4月1日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【干货】多文本人脸生成

【干货】多文本人脸生成

中国图象图形学学会CSIG

2+阅读 · 2021年12月14日

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

THU数据派

3+阅读 · 2021年11月26日

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

中国图象图形学学会CSIG

0+阅读 · 2021年11月5日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

CVPR 2021 论文大盘点-文本图像篇

CVPR 2021 论文大盘点-文本图像篇

极市平台

1+阅读 · 2021年9月21日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

相关基金

网络环境下基于视觉显著性的图像检索

国家自然科学基金

1+阅读 · 2014年12月31日

基于深层神经网络的多模态快速稀疏表征器

国家自然科学基金

3+阅读 · 2014年12月31日

大尺寸高分辨率差异图像的结构化分层细分配准研究

国家自然科学基金

0+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

时空多分辨率遥感影像融合的模型与方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

空间编码可控的快速MRI高分辨率图像稀疏重建

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉显著性的图像内容分析与检索

国家自然科学基金

0+阅读 · 2011年12月31日

视频序列的自适应超分辨率盲重建技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

实时双模态自动图像软标注与多关键词检索

国家自然科学基金

0+阅读 · 2009年12月31日

融合显式和隐含语义概念的视频检索技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

K-LITE: Learning Transferable Visual Models with External Knowledge

Arxiv

2+阅读 · 2022年4月20日

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals

Arxiv

0+阅读 · 2022年4月16日

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Arxiv

0+阅读 · 2022年4月15日

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

Arxiv

14+阅读 · 2020年12月22日

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

Arxiv

15+阅读 · 2020年5月13日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

微信扫码咨询专知VIP会员