Dense video captioning is an extremely challenging task since accurate and coherent description of events in a video requires holistic understanding of video contents as well as contextual reasoning of individual events. Most existing approaches handle this problem by first detecting event proposals from a video and then captioning on a subset of the proposals. As a result, the generated sentences are prone to be redundant or inconsistent since they fail to consider temporal dependency between events. To tackle this challenge, we propose a novel dense video captioning framework, which models temporal dependency across events in a video explicitly and leverages visual and linguistic context from prior events for coherent storytelling. This objective is achieved by 1) integrating an event sequence generation network to select a sequence of event proposals adaptively, and 2) feeding the sequence of event proposals to our sequential video captioning network, which is trained by reinforcement learning with two-level rewards at both event and episode levels for better context modeling. The proposed technique achieves outstanding performances on ActivityNet Captions dataset in most metrics.


翻译:大量视频字幕是一项极具挑战性的任务,因为在视频中对事件的准确和连贯描述要求全面理解视频内容以及个别事件的背景推理。大多数现有方法通过首先从视频中发现事件提案,然后对部分提案进行字幕处理该问题。因此,生成的句子可能多余或不一致,因为它们没有考虑到事件之间的时间依赖性。为了应对这一挑战,我们提议了一个新型的密集视频字幕框架,在视频中明确模拟事件之间的时间依赖性,并利用以往事件的视觉和语言背景进行连贯叙事。实现这一目标的途径是:(1) 整合事件序列生成网络,以适应性地选择事件提案的顺序;(2) 将事件序列提案反馈到我们的连续视频字幕网络,通过在事件和事件层面加强学习,同时提供两个层次的奖励,以更好地进行背景建模。拟议的技术在大多数指标中实现了活动网卡码数据集的出色表现。

7
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Arxiv
6+阅读 · 2019年4月4日
VIP会员
Top
微信扫码咨询专知VIP会员