The self-attention mechanism has attracted wide publicity for its most important advantage of modeling long dependency, and its variations in computer vision tasks, the non-local block tries to model the global dependency of the input feature maps. Gathering global contextual information will inevitably need a tremendous amount of memory and computing resources, which has been extensively studied in the past several years. However, there is a further problem with the self-attention scheme: is all information gathered from the global scope helpful for the contextual modelling? To our knowledge, few studies have focused on the problem. Aimed at both questions this paper proposes the salient positions-based attention scheme SPANet, which is inspired by some interesting observations on the attention maps and affinity matrices generated in self-attention scheme. We believe these observations are beneficial for better understanding of the self-attention. SPANet uses the salient positions selection algorithm to select only a limited amount of salient points to attend in the attention map computing. This approach will not only spare a lot of memory and computing resources, but also try to distill the positive information from the transformation of the input feature maps. In the implementation, considering the feature maps with channel high dimensions, which are completely different from the general visual image, we take the squared power of the feature maps along the channel dimension as the saliency metric of the positions. In general, different from the non-local block method, SPANet models the contextual information using only the selected positions instead of all, along the channel dimension instead of space dimension. Our source code is available at https://github.com/likyoo/SPANet.


翻译:自留机制因其在模拟长期依赖性方面最重要的优势及其在计算机视野任务方面的差异而吸引了广泛的宣传。非本地区块试图模拟输入特征地图的全球依赖性。收集全球背景信息将不可避免地需要大量的记忆和计算资源,在过去几年中已经对此进行了广泛研究。然而,自留机制还存在另一个问题:从全球范围收集的所有信息是否都有助于背景建模?就我们的知识而言,很少有研究侧重于这一问题。本文针对两个问题提出了基于定位的SPANet计划,该计划的灵感来自对自留图和自留方案中生成的亲近矩阵的一些有趣的观察。我们认为,这些观测有助于更好地理解自留。SPANet使用突出位置选择算算法只选择有限数量的显著点用于关注地图的计算。这一方法不仅节省大量记忆和计算资源,而且还试图从输入特征图的转换中提取积极的信息。在实施过程中,从我们通用空间定位图的地面位置上,从我们通用的地面图的地貌图中,从普通的地平面图的地平面图中取出。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
注意力机制综述
专知会员服务
82+阅读 · 2021年1月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
CVPR2019 | 全景分割:Attention-guided Unified Network
极市平台
9+阅读 · 2019年3月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员