Video captioning aims to generate natural language descriptions according to the content, where representation learning plays a crucial role. Existing methods are mainly developed within the supervised learning framework via word-by-word comparison of the generated caption against the ground-truth text without fully exploiting linguistic semantics. In this work, we propose a hierarchical modular network to bridge video representations and linguistic semantics from three levels before generating captions. In particular, the hierarchy is composed of: (I) Entity level, which highlights objects that are most likely to be mentioned in captions. (II) Predicate level, which learns the actions conditioned on highlighted objects and is supervised by the predicate in captions. (III) Sentence level, which learns the global semantic representation and is supervised by the whole caption. Each level is implemented by one module. Extensive experimental results show that the proposed method performs favorably against the state-of-the-art models on the two widely-used benchmarks: MSVD 104.0% and MSR-VTT 51.5% in CIDEr score.


翻译:视频字幕旨在根据内容生成自然语言描述,其中代表性学习起着关键作用。现有方法主要通过逐字比较生成的字幕与地面真实文本的逐字比较,在监督的学习框架内开发,而没有充分利用语言语义。在这项工作中,我们提议建立一个等级模块网络,在生成字幕之前从三个级别连接视频表达和语言语义。特别是,等级结构由以下几个方面组成:(一) 实体一级,它突出说明最有可能在标题中提及的物体。 (二) 预设级别,它学习以突出对象为条件的行动,并受标题中的上游因素监督。 (三) 句级,它学习全球语义表述,并由整个标题监督。每个级别都由一个模块实施。广泛的实验结果表明,拟议方法在两种广泛使用的基准上,即MSVD 104.0%和MSR-VTT 51.5%的评分中,优于最先进的模式。

0
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Semantic Grouping Network for Video Captioning
Arxiv
3+阅读 · 2021年2月3日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关论文
Semantic Grouping Network for Video Captioning
Arxiv
3+阅读 · 2021年2月3日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年3月30日
Top
微信扫码咨询专知VIP会员