Video captioning aims to automatically generate natural language descriptions of video content, which has drawn a lot of attention recent years. Generating accurate and fine-grained captions needs to not only understand the global content of video, but also capture the detailed object information. Meanwhile, video representations have great impact on the quality of generated captions. Thus, it is important for video captioning to capture salient objects with their detailed temporal dynamics, and represent them using discriminative spatio-temporal representations. In this paper, we propose a new video captioning approach based on object-aware aggregation with bidirectional temporal graph (OA-BTG), which captures detailed temporal dynamics for salient objects in video, and learns discriminative spatio-temporal representations by performing object-aware local feature aggregation on detected object regions. The main novelties and advantages are: (1) Bidirectional temporal graph: A bidirectional temporal graph is constructed along and reversely along the temporal order, which provides complementary ways to capture the temporal trajectories for each salient object. (2) Object-aware aggregation: Learnable VLAD (Vector of Locally Aggregated Descriptors) models are constructed on object temporal trajectories and global frame sequence, which performs object-aware aggregation to learn discriminative representations. A hierarchical attention mechanism is also developed to distinguish different contributions of multiple objects. Experiments on two widely-used datasets demonstrate our OA-BTG achieves state-of-the-art performance in terms of BLEU@4, METEOR and CIDEr metrics.


翻译:视频字幕旨在自动生成视频内容的自然语言描述,这在最近几年引起了许多关注。生成准确和细微的视频字幕不仅需要理解视频的全球内容,还需要捕捉详细对象信息。同时,视频演示对生成的字幕的质量有着重大影响。因此,视频字幕对于视频字幕非常重要,以其详细的时间动态捕捉突出对象,并使用歧视性的时空表达方式代表这些对象。在本文中,我们提议了一种新的视频字幕说明方法,其依据是用双向时间图(OA-BTG)对目标有觉觉识的物体进行汇总。该方法不仅需要广泛了解视频中突出对象的详细时间动态,而且还需要通过在检测到的物体区域进行目标认知的本地特征汇总,从而了解具有歧视性的微时空表达方式。主要的新之处和优点是:(1)双向时间图:双向时间图是沿时间顺序构建的,为每个突出对象的时向轨图(OA-BTG)提供了补充方法,该方法可以广泛捕捉取视频对象的时空动态对象时间定位图(O-traalwaralalalal-alalalalalalalalalalal contra contra constring:可理解的A-dealalaltraaltraal-deal-dealtraaltraal-traalmastrationalmastrational laveal laveal ors),该,该图中,该图中,该图中,该图中,该图中,该图中,该图中,该图中,该图中,该图中,该图中,该图中,该图中,该图是Btra-deal-dealtra-deal-deal-deal-deal-deal-deal-deal-deal-deal-deal-deal-deal-deal-traal-traal-deal-deal-deal-traal-traal-traal-traaltraaltraaltraal-traal-traal-traal-ladal-ladal-ladal-ladal-ladal-ladal-ladal-ladal-ladal-ladal-ladal-ladal-sal-ladal-laction

3
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
计算机视觉领域顶会CVPR 2018 接受论文列表
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
6+阅读 · 2019年4月4日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
相关VIP内容
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员