The best summary of a long video differs among different people due to its highly subjective nature. Even for the same person, the best summary may change with time or mood. In this paper, we introduce the task of generating customized video summaries through simple text. First, we train a deep architecture to effectively learn semantic embeddings of video frames by leveraging the abundance of image-caption data via a progressive and residual manner. Given a user-specific text description, our algorithm is able to select semantically relevant video segments and produce a temporally aligned video summary. In order to evaluate our textually customized video summaries, we conduct experimental comparison with baseline methods that utilize ground-truth information. Despite the challenging baselines, our method still manages to show comparable or even exceeding performance. We also show that our method is able to generate semantically diverse video summaries by only utilizing the learned visual embeddings.


翻译:长长视频的最佳摘要因高度主观性而不同, 不同的人之间不同。 即使对同一人来说, 最好的摘要也会随着时间或情绪的变化而改变。 在本文中, 我们引入了通过简单文本生成定制视频摘要的任务。 首先, 我们训练了一个深层的架构, 通过渐进和剩余的方式利用大量图像解析数据, 有效地学习视频框的语义嵌入。 根据用户特有的文本描述, 我们的算法能够选择语义相关视频段, 并制作一个时间一致的视频摘要。 为了评估我们的文字定制视频摘要, 我们与使用地面真相信息的基线方法进行了实验性比较。 尽管有挑战性的基线, 我们的方法仍然能够显示可比较甚至超强的性能。 我们还展示了我们的方法, 只能利用有学识的视觉嵌入, 才能生成具有语义多样性的视频摘要 。

4
下载
关闭预览

相关内容

深度学习搜索,Exploring Deep Learning for Search
专知会员服务
55+阅读 · 2020年5月9日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
强化学习最新教程,17页pdf
专知会员服务
166+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Arxiv
20+阅读 · 2020年6月8日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
55+阅读 · 2020年5月9日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
强化学习最新教程,17页pdf
专知会员服务
166+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
相关论文
Arxiv
20+阅读 · 2020年6月8日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
Arxiv
3+阅读 · 2012年11月20日
Top
微信扫码咨询专知VIP会员