【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning - 专知VIP

会员服务 ·

1

CVPR 2022 · 计算机视觉 · 论文 ·

2022 年 3 月 3 日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

【多模态视频字幕的端到端生成预训练】End-to-end Generative Pretraining for Multimodal Video Captioning
● 论文摘要：最近的视频和语言前训练框架缺乏生成句子的能力。我们提出了多模态视频生成预训练(MV-GPT)，这是一个新的用于从无标签视频学习的预训练框架，它可以有效地用于生成任务，如多模态视频字幕。与最近的视频语言预训练框架不同，我们的框架同时训练多模态视频编码器和句子解码器。为了克服无标签视频中字幕的缺乏，我们利用未来话语作为一个额外的文本源，并提出一个双向生成目标——我们在当前多模态语境下生成未来话语，在未来观察下也生成当前话语。基于此目标，我们训练一个端到端的编码器-解码器模型来直接从原始像素和转录语音生成标题。我们的模型在四个标准基准上的多模态视频字幕以及其他视频理解任务(如VideoQA、视频检索和动作分类)上都达到了最先进的性能。
● 论文链接：https://arxiv.org/abs/2201.08264
● 作者单位：Google Research

成为VIP会员查看完整内容

27

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

SimVLM：弱监督简单视觉语言模型预训练

SimVLM：弱监督简单视觉语言模型预训练

TensorFlow

0+阅读 · 2021年12月9日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知

1+阅读 · 2021年4月25日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

大型动物行为模型与高级行为智能视频感知新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

图的生成连通性及相关问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于生成树库分析与生成一体化机器翻译模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

Sound-Guided Semantic Video Generation

Arxiv

0+阅读 · 2022年4月20日

End-to-end Dense Video Captioning as Sequence Generation

Arxiv

1+阅读 · 2022年4月18日

METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals

Arxiv

0+阅读 · 2022年4月16日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

计算机视觉

相关VIP内容

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关资讯

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

SimVLM：弱监督简单视觉语言模型预训练

SimVLM：弱监督简单视觉语言模型预训练

TensorFlow

0+阅读 · 2021年12月9日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知

1+阅读 · 2021年4月25日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

相关基金

大型动物行为模型与高级行为智能视频感知新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

图的生成连通性及相关问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于生成树库分析与生成一体化机器翻译模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Sound-Guided Semantic Video Generation

Arxiv

0+阅读 · 2022年4月20日

End-to-end Dense Video Captioning as Sequence Generation

Arxiv

1+阅读 · 2022年4月18日

METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals

Arxiv

0+阅读 · 2022年4月16日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

微信扫码咨询专知VIP会员