多模态视频字幕的端到端生成预训练】End-to-end Generative Pretraining for Multimodal Video Captioning
● 论文摘要:最近的视频和语言前训练框架缺乏生成句子的能力。我们提出了多模态视频生成预训练(MV-GPT),这是一个新的用于从无标签视频学习的预训练框架,它可以有效地用于生成任务,如多模态视频字幕。与最近的视频语言预训练框架不同,我们的框架同时训练多模态视频编码器和句子解码器。为了克服无标签视频中字幕的缺乏,我们利用未来话语作为一个额外的文本源,并提出一个双向生成目标——我们在当前多模态语境下生成未来话语,在未来观察下也生成当前话语。基于此目标,我们训练一个端到端的编码器-解码器模型来直接从原始像素和转录语音生成标题。我们的模型在四个标准基准上的多模态视频字幕以及其他视频理解任务(如VideoQA、视频检索和动作分类)上都达到了最先进的性能。
● 论文链接:https://arxiv.org/abs/2201.08264
● 作者单位:Google Research

成为VIP会员查看完整内容
26

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
31+阅读 · 2022年3月12日
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
Allen AI提出MERLOT,视频理解领域新SOTA!
夕小瑶的卖萌屋
3+阅读 · 2022年2月8日
SimVLM:弱监督简单视觉语言模型预训练
TensorFlow
0+阅读 · 2021年12月9日
多模态中的Prompt范式:从CLIP、CoOp到CLIP-adapter
PaperWeekly
5+阅读 · 2021年11月3日
论文浅尝 | 利用冻结语言模型的多模态少样本学习
开放知识图谱
0+阅读 · 2021年8月28日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
VIP会员
相关VIP内容
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
31+阅读 · 2022年3月12日
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
相关资讯
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
Allen AI提出MERLOT,视频理解领域新SOTA!
夕小瑶的卖萌屋
3+阅读 · 2022年2月8日
SimVLM:弱监督简单视觉语言模型预训练
TensorFlow
0+阅读 · 2021年12月9日
多模态中的Prompt范式:从CLIP、CoOp到CLIP-adapter
PaperWeekly
5+阅读 · 2021年11月3日
论文浅尝 | 利用冻结语言模型的多模态少样本学习
开放知识图谱
0+阅读 · 2021年8月28日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员