Vision Transformer are very popular nowadays due to their state-of-the-art performance in several computer vision tasks, such as image classification and action recognition. Although the performance of Vision Transformers have been greatly improved by employing Convolutional Neural Networks, hierarchical structures and compact forms, there is limited research on ways to utilize additional data representations to refine the attention map derived from the multi-head attention of a Transformer network. This work proposes a novel attention mechanism, called multi-manifold attention, that can substitute any standard attention mechanism in a Transformer-based network. The proposed attention models the input space in three distinct manifolds, namely Euclidean, Symmetric Positive Definite and Grassmann, with different statistical and geometrical properties, guiding the network to take into consideration a rich set of information that describe the appearance, color and texture of an image, for the computation of a highly descriptive attention map. In this way, a Vision Transformer with the proposed attention is guided to become more attentive towards discriminative features, leading to improved classification results, as shown by the experimental results on several well-known image classification datasets.


翻译:视觉变异器现在非常受欢迎,因为其在若干计算机视觉任务(如图像分类和动作识别)中表现最先进的表现。虽然通过使用进化神经网络、等级结构和紧凑形式大大提高了视觉变异器的性能,但对于如何利用更多的数据表述来完善从变异器网络多头目关注的多头目中得出的关注地图的研究有限。这项工作提出了一个新的关注机制,称为多重关注,可以取代以变异器为基础的网络中任何标准关注机制。拟议的关注模型将三个不同的不同的方块(即Euclidean、Symmatimic 阳性缺陷和 Grassmann)中的输入空间作为分解,这三种不同的方块具有不同的统计和几何特性,指导网络考虑描述图像的外观、颜色和纹理的丰富信息,用于计算高度描述性关注的地图。在这种方式下,一个具有拟议关注的愿景变异器被引导为更关注偏向歧视性特征,从而导致更好的分类结果,正如几个著名图像分类数据的实验结果所显示的那样。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年9月13日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
19+阅读 · 2021年4月8日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员