Given the features of a video, recurrent neural network can be used to automatically generate a caption for the video. Existing methods for video captioning have at least three limitations. First, semantic information has been widely applied to boost the performance of video captioning models, but existing networks often fail to provide meaningful semantic features. Second, Teacher Forcing algorithm is often utilized to optimize video captioning models, but during training and inference, different strategies are applied to guide word generation, which lead to poor performance. Third, current video captioning models are prone to generate relatively short captions, which express video contents inappropriately. Towards resolving these three problems, we make three improvements correspondingly. First of all, we utilize both static spatial features and dynamic spatio-temporal features as input for semantic detection network (SDN) in order to generate meaningful semantic features for videos. Then, we propose a scheduled sampling strategy which gradually transfers the training phase from a teacher guiding manner towards a more self teaching manner. At last, the ordinary logarithm probability loss function is leveraged by sentence length so that short sentence inclination is alleviated. Our model achieves state-of-the-art results on the Youtube2Text dataset and is competitive with the state-of-the-art models on the MSR-VTT dataset.


翻译:鉴于视频的特征,可以使用经常性神经网络来自动生成视频字幕。现有的视频字幕方法至少有三个限制。首先,语义信息被广泛用于提高视频字幕模型的性能,但现有网络往往不能提供有意义的语义特征。第二,教师强化算法常常用于优化视频字幕模型,但在培训和推论期间,应用了不同的战略来指导生成文字,导致不良的性能。第三,目前的视频字幕模型容易产生相对短的字幕,这些字幕表达的视频内容不适当。为了解决这三个问题,我们相应地做了三个改进。首先,我们利用静态空间特征和动态spatio-时空特征作为语识别网络(SDN)的输入,以便产生有意义的语义描述模型(SDN),为视频生成有意义的语义特征。然后,我们提出一个预定的取样战略,将培训阶段从教师指导方式逐步转移到更自学的方式。最后,普通对日志概率损失功能通过句长度来利用,这样短句取缩缩。首先,我们利用静态空间特征和动态空间模型(Mtreaut)实现数据状态。

0
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
61+阅读 · 2020年3月19日
专知会员服务
63+阅读 · 2020年3月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2019年4月4日
VIP会员
Top
微信扫码咨询专知VIP会员