Video captioning is a challenging task since it requires generating sentences describing various diverse and complex videos. Existing video captioning models lack adequate visual representation due to the neglect of the existence of gaps between videos and texts. To bridge this gap, in this paper, we propose a CLIP4Caption framework that improves video captioning based on a CLIP-enhanced video-text matching network (VTM). This framework is taking full advantage of the information from both vision and language and enforcing the model to learn strongly text-correlated video features for text generation. Besides, unlike most existing models using LSTM or GRU as the sentence decoder, we adopt a Transformer structured decoder network to effectively learn the long-range visual and language dependency. Additionally, we introduce a novel ensemble strategy for captioning tasks. Experimental results demonstrate the effectiveness of our method on two datasets: 1) on MSR-VTT dataset, our method achieved a new state-of-the-art result with a significant gain of up to 10% in CIDEr; 2) on the private test data, our method ranking 2nd place in the ACM MM multimedia grand challenge 2021: Pre-training for Video Understanding Challenge. It is noted that our model is only trained on the MSR-VTT dataset.


翻译:视频字幕是一项艰巨的任务,因为它要求生成描述各种复杂视频的句子。现有的视频字幕模型由于忽视视频和文本之间差距的存在而缺乏足够的视觉表现形式。为了缩小这一差距,我们在本文中提议了一个CLIP4Caption框架,根据CLIP增强的视频文本匹配网络(VTM)改进视频字幕框架。这个框架正在充分利用来自视觉和语言的信息,并强制执行模型,为文本生成学习强烈的文本相关视频特征。此外,与大多数使用LSTM或GRU作为句解码器的现有模型不同,我们采用了一个变换器结构解码器网络,以有效学习远程视觉和语言依赖性。此外,我们引入了新颖的配置任务组合战略。实验结果显示了我们在两个数据集上的方法的有效性:(1) 在MSR-VTT数据集上,我们的方法取得了新的状态,在CIDER中获得了高达10%的显著收益;(2) 在私人测试数据方面,我们的方法排名第二级的解码网络有效地学习了远程视觉和语言依赖性。此外,我们的方法排名是MMTF培训的多媒体挑战。

0
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
88+阅读 · 2021年6月29日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
8+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
7+阅读 · 2019年4月8日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
7+阅读 · 2018年4月11日
VIP会员
Top
微信扫码咨询专知VIP会员