Due to the rapid emergence of short videos and the requirement for content understanding and creation, the video captioning task has received increasing attention in recent years. In this paper, we convert traditional video captioning task into a new paradigm, \ie, Open-book Video Captioning, which generates natural language under the prompts of video-content-relevant sentences, not limited to the video itself. To address the open-book video captioning problem, we propose a novel Retrieve-Copy-Generate network, where a pluggable video-to-text retriever is constructed to retrieve sentences as hints from the training corpus effectively, and a copy-mechanism generator is introduced to extract expressions from multi-retrieved sentences dynamically. The two modules can be trained end-to-end or separately, which is flexible and extensible. Our framework coordinates the conventional retrieval-based methods with orthodox encoder-decoder methods, which can not only draw on the diverse expressions in the retrieved sentences but also generate natural and accurate content of the video. Extensive experiments on several benchmark datasets show that our proposed approach surpasses the state-of-the-art performance, indicating the effectiveness and promising of the proposed paradigm in the task of video captioning.


翻译:由于短视频的迅速出现以及内容理解和创建的需要,视频字幕任务近年来受到越来越多的关注。在本文中,我们将传统视频字幕任务转换成一个新的范例,即:\ie,Open-book Vide Vicap Caption,在视频内容相关句子的提示下,不仅在视频本身之外,产生自然语言。为了解决公开书籍视频字幕问题,我们提议建立一个新型的Retreve-Copy-Generate网络,在网络中,可插入视频到文本检索器,以便有效地从培训教材中提取提示,并引入一个复制机械生成器,以动态地从多检索的句子提取表达方式。两个模块可以经过培训的终端到终端或分开,可以灵活和可扩展。我们的框架将传统的检索方法与正统的编码解密方法相协调,不仅可以借鉴检索的句子中的多种表达方式,还可以产生自然和准确的视频内容。在几个基准数据集上进行广泛的实验,显示我们所提议的任务模式的进度将超过任务方向的状态。

7
下载
关闭预览

相关内容

视频描述生成(Video Caption),就是从视频中自动生成一段描述性文字

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
7+阅读 · 2018年11月5日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
Top
微信扫码咨询专知VIP会员