【多模态视频字幕的端到端生成预训练】End-to-end Generative Pretraining for Multimodal Video Captioning
● 论文摘要:最近的视频和语言前训练框架缺乏生成句子的能力。我们提出了多模态视频生成预训练(MV-GPT),这是一个新的用于从无标签视频学习的预训练框架,它可以有效地用于生成任务,如多模态视频字幕。与最近的视频语言预训练框架不同,我们的框架同时训练多模态视频编码器和句子解码器。为了克服无标签视频中字幕的缺乏,我们利用未来话语作为一个额外的文本源,并提出一个双向生成目标——我们在当前多模态语境下生成未来话语,在未来观察下也生成当前话语。基于此目标,我们训练一个端到端的编码器-解码器模型来直接从原始像素和转录语音生成标题。我们的模型在四个标准基准上的多模态视频字幕以及其他视频理解任务(如VideoQA、视频检索和动作分类)上都达到了最先进的性能。
● 论文链接:https://arxiv.org/abs/2201.08264
● 作者单位:Google Research