The introduction of Transformer model has led to tremendous advancements in sequence modeling, especially in text domain. However, the use of attention-based models for video understanding is still relatively unexplored. In this paper, we introduce Gated Adversarial Transformer (GAT) to enhance the applicability of attention-based models to videos. GAT uses a multi-level attention gate to model the relevance of a frame based on local and global contexts. This enables the model to understand the video at various granularities. Further, GAT uses adversarial training to improve model generalization. We propose temporal attention regularization scheme to improve the robustness of attention modules to adversarial examples. We illustrate the performance of GAT on the large-scale YoutTube-8M data set on the task of video categorization. We further show ablation studies along with quantitative and qualitative analysis to showcase the improvement.


翻译:采用变换模型在序列建模方面取得了巨大进步,特别是在文本领域。然而,对视像理解使用以关注为基础的模型仍然相对没有进行探索。在本文中,我们引入了Gated Aversarial变异器(GAT)以加强关注型模型对视频的可适用性。GAT利用一个多层关注门来模拟基于当地和全球背景的框架的相关性。这使该模型能够理解不同微粒的视频。此外,GAT利用对抗性培训来改进模型的概括化。我们提出了时间关注监管计划,以提高对对抗性实例的关注模块的稳健性。我们举例说明了GAT在大型Youtube-8M视频分类任务数据集上的表现。我们进一步展示了与定量和定性分析相结合的研究,以展示改进情况。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
注意力机制综述
专知会员服务
82+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
简明扼要!Python教程手册,206页pdf
专知会员服务
47+阅读 · 2020年3月24日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年4月3日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关VIP内容
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
注意力机制综述
专知会员服务
82+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
简明扼要!Python教程手册,206页pdf
专知会员服务
47+阅读 · 2020年3月24日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员