With the explosive growth of video data, video summarization, which attempts to seek the minimum subset of frames while still conveying the main story, has become one of the hottest topics. Nowadays, substantial achievements have been made by supervised learning techniques, especially after the emergence of deep learning. However, it is extremely expensive and difficult to collect human annotation for large-scale video datasets. To address this problem, we propose a convolutional attentive adversarial network (CAAN), whose key idea is to build a deep summarizer in an unsupervised way. Upon the generative adversarial network, our overall framework consists of a generator and a discriminator. The former predicts importance scores for all frames of a video while the latter tries to distinguish the score-weighted frame features from original frame features. Specifically, the generator employs a fully convolutional sequence network to extract global representation of a video, and an attention-based network to output normalized importance scores. To learn the parameters, our objective function is composed of three loss functions, which can guide the frame-level importance score prediction collaboratively. To validate this proposed method, we have conducted extensive experiments on two public benchmarks SumMe and TVSum. The results show the superiority of our proposed method against other state-of-the-art unsupervised approaches. Our method even outperforms some published supervised approaches.


翻译:随着视频数据爆炸性增长,视频摘要总结试图寻找最起码的框架子集,同时仍然传达主要故事,这已成为最热门的话题之一。如今,通过监督学习技术,特别是在深层学习出现之后,已经取得了巨大成就。然而,由于为大型视频数据集收集人类批注极其昂贵,而且很难收集到大量的视频数据集。为了解决这一问题,我们建议建立一个关注动态的对立网络(CAAN),其主要想法是以不受监督的方式构建一个深度缩略图。在基因对抗网络中,我们的总体框架包括一个生成者和一个歧视者。前者预测了所有视频框架的重要分数,而后者则试图将加权框架特征与原始框架特征区分开来。具体地说,发电机使用一个完全革命序列网络来提取一个视频的全球代表性,以及一个以关注为主的输出重要分数的网络。为了了解参数,我们的目标功能由三个损失函数组成,可以用来指导框架层面的重要分数的预测。为了验证这一拟议方法,我们甚至对两种公共升级基准方法进行了广泛的实验。我们提出的“SumMe-V-S-O-PA-V-O-O-O-O-O-O-O-V-O-V-O-O-O-P-P-P-P-P-P-S-S-S-S-S-P-S-S-S-S-S-S-S-S-P-S-P-P-P-P-P-P-P-P-P-P-S-S-S-S-S-S-S-P-P-P-P-P-P-P-P-P-P-P-S-S-P-P-P-P-P-P-S-S-S-P-S-P-S-S-S-S-S-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-S-P-P-P-P-P-P-P-P-P-P-P-P-P-S-P-P-P-P-P-P-P-P-P-P-P-P-P-P

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
28+阅读 · 2020年11月3日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2018年5月21日
VIP会员
Top
微信扫码咨询专知VIP会员