This paper strives to find amidst a set of sentences the one best describing the content of a given image or video. Different from existing works, which rely on a joint subspace for their image and video caption retrieval, we propose to do so in a visual space exclusively. Apart from this conceptual novelty, we contribute \emph{Word2VisualVec}, a deep neural network architecture that learns to predict a visual feature representation from textual input. Example captions are encoded into a textual embedding based on multi-scale sentence vectorization and further transferred into a deep visual feature of choice via a simple multi-layer perceptron. We further generalize Word2VisualVec for video caption retrieval, by predicting from text both 3-D convolutional neural network features as well as a visual-audio representation. Experiments on Flickr8k, Flickr30k, the Microsoft Video Description dataset and the very recent NIST TrecVid challenge for video caption retrieval detail Word2VisualVec's properties, its benefit over textual embeddings, the potential for multimodal query composition and its state-of-the-art results.


翻译:本文努力在一组句子中找到最能描述特定图像或视频内容的句子。 与现有作品不同, 现有作品依靠一个联合子空间来进行图像和视频字幕检索, 我们提议完全在视觉空间这样做。 除了这个概念创新外, 我们贡献了一个深层次的神经网络结构, 学会从文字输入中预测视觉特征。 示例标题被编码成一个文本嵌入一个基于多尺度的句子矢量化的文本嵌入, 并通过简单的多层透视器进一步传输到一个深度的视觉选择特征。 我们进一步将Word2Vec 用于视频字幕检索, 从文本中预测 3D 进化神经网络的功能, 以及视觉显示 。 在 Flickr8k、 Flick30k、 微软视频描述数据集上进行实验, 最近 NIST TrecVivid对视频字幕检索细节 Word2 VisualVec 的质疑, 其相对于文本嵌入的优点, 其多式联运的构成及其状态结果。

5
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
89+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
166+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
89+阅读 · 2018年10月23日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
文字描述生成视频的开源项目
CreateAMind
5+阅读 · 2017年12月31日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Arxiv
4+阅读 · 2019年8月7日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
5+阅读 · 2018年3月30日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员