Although video summarization has achieved tremendous success benefiting from Recurrent Neural Networks (RNN), RNN-based methods neglect the global dependencies and multi-hop relationships among video frames, which limits the performance. Transformer is an effective model to deal with this problem, and surpasses RNN-based methods in several sequence modeling tasks, such as machine translation, video captioning, \emph{etc}. Motivated by the great success of transformer and the natural structure of video (frame-shot-video), a hierarchical transformer is developed for video summarization, which can capture the dependencies among frame and shots, and summarize the video by exploiting the scene information formed by shots. Furthermore, we argue that both the audio and visual information are essential for the video summarization task. To integrate the two kinds of information, they are encoded in a two-stream scheme, and a multimodal fusion mechanism is developed based on the hierarchical transformer. In this paper, the proposed method is denoted as Hierarchical Multimodal Transformer (HMT). Practically, extensive experiments show that HMT surpasses most of the traditional, RNN-based and attention-based video summarization methods.


翻译:虽然视频总和已经取得了巨大的成功,得益于经常的神经网络(Neal Networks (RNN),但基于RNN的方法忽视了视频框架之间的全球依赖性和多视关系,从而限制了性能。变异器是解决这一问题的有效模式,在机器翻译、视频字幕、emph{etc}等若干序列建模任务中超过了基于RNN的方法。由于变压器和视频自然结构(框架光碟-视频)的巨大成功,因此为视频总和开发了一个等级变压器,可以捕捉框架和镜头之间的依赖性,通过利用镜头生成的场景信息来总结视频。此外,我们认为,变异器和视觉信息对于视频总和任务都是必不可少的。为了整合这两种信息,它们被编码成双流制成,而基于等级变压器的多式联运聚变机制也得到了开发。在本文中,拟议的方法被记为高等级多调制变压器(HMT),可以捕捉到框架和镜头之间的依赖性,并且通过利用镜头生成的场景象信息来对视频信息进行总结,从而显示HMTMT超越了传统、RNNNPM的最关注。

0
下载
关闭预览

相关内容

【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
148+阅读 · 2021年10月25日
专知会员服务
46+阅读 · 2021年9月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
20+阅读 · 2021年9月21日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员