Building correspondences across different modalities, such as video and language, has recently become critical in many visual recognition applications, such as video captioning. Inspired by machine translation, recent models tackle this task using an encoder-decoder strategy. The (video) encoder is traditionally a Convolutional Neural Network (CNN), while the decoding (for language generation) is done using a Recurrent Neural Network (RNN). Current state-of-the-art methods, however, train encoder and decoder separately. CNNs are pretrained on object and/or action recognition tasks and used to encode video-level features. The decoder is then optimised on such static features to generate the video's description. This disjoint setup is arguably sub-optimal for input (video) to output (description) mapping. In this work, we propose to optimise both encoder and decoder simultaneously in an end-to-end fashion. In a two-stage training setting, we first initialise our architecture using pre-trained encoders and decoders -- then, the entire network is trained end-to-end in a fine-tuning stage to learn the most relevant features for video caption generation. In our experiments, we use GoogLeNet and Inception-ResNet-v2 as encoders and an original Soft-Attention (SA-) LSTM as a decoder. Analogously to gains observed in other computer vision problems, we show that end-to-end training significantly improves over the traditional, disjoint training process. We evaluate our End-to-End (EtENet) Networks on the Microsoft Research Video Description (MSVD) and the MSR Video to Text (MSR-VTT) benchmark datasets, showing how EtENet achieves state-of-the-art performance across the board.


翻译:在视频和语言等许多视觉识别应用程序中,建设不同模式的通信,例如视频和语言,最近变得至关重要。在机器翻译的启发下,最近的一些模型使用编码器解码器战略来完成这项任务。(视频)编码器传统上是一个 Convolual神经网络(CNN),而(语言生成)解码(语言生成)则使用经常性神经网络(RNNN)进行。但是,目前最先进的编码和解码器是分开的。CNN在传统对象和(或)动作识别任务上已经预先接受过培训,并用来编码视频层面的功能。随后,解码器将优化在这种静态功能上生成视频描述。这种脱节的设置可以说是用于输入(视频)到输出(描述)映射(解码器)的次最佳功能。我们提议在终端到终端的服务器上优化解码和解码器。我们首先使用预设的解码器解码器和解码器,然后,整个网络将经过培训,将最终显示我们的数据显示为升级的版本。

2
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年4月4日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员