In this paper we investigate the amount of spatial context required for channel attention. To this end we study the popular squeeze-and-excite (SE) block which is a simple and lightweight channel attention mechanism. SE blocks and its numerous variants commonly use global average pooling (GAP) to create a single descriptor for each channel. Here, we empirically analyze the amount of spatial context needed for effective channel attention and find that limited localcontext on the order of seven rows or columns of the original image is sufficient to match the performance of global context. We propose tiled squeeze-and-excite (TSE), which is a framework for building SE-like blocks that employ several descriptors per channel, with each descriptor based on local context only. We further show that TSE is a drop-in replacement for the SE block and can be used in existing SE networks without re-training. This implies that local context descriptors are similar both to each other and to the global context descriptor. Finally, we show that TSE has important practical implications for deployment of SE-networks to dataflow AI accelerators due to their reduced pipeline buffering requirements. For example, using TSE reduces the amount of activation pipeline buffering in EfficientDetD2 by 90% compared to SE (from 50M to 4.77M) without loss of accuracy. Our code and pre-trained models will be publicly available.


翻译:在本文中, 我们调查频道关注所需的空间环境量。 为此, 我们研究广受欢迎的挤压和排泄( SE) 区块, 这是一个简单和轻量级的频道关注机制。 SE 区块及其众多变体通常使用全球平均集合( GAP) 来为每个频道创建单一描述器。 在这里, 我们用经验分析有效频道关注所需的空间环境量, 发现最初图像的7行或列的局部背景量足以与全球背景量相匹配。 我们提议, 平整的挤压和排泄( TSE) 区块是一个建设SE类区块的框架, 每个频道使用多个描述器, 每一个描述器仅以当地背景为基础。 我们进一步显示, TSE 是SE 区块的空置替代器, 并且可以在现有的 SE网络中不再培训, 本地环境量与全球背景描述器相似。 最后, 我们指出, TE 部域网组在部署数据流AIclestrain 和SE 90 缓冲模型方面有着重要的实际影响,, 将减少 SEM 的缓冲要求, 降低 缓冲规则, 的缓冲值, 将降低 至 缓冲到 缓冲到 缓冲到 缓冲规则, 。

0
下载
关闭预览

相关内容

IEEE软件工程事务处理对定义明确的理论结果和对软件的构建、分析或管理有潜在影响的实证研究感兴趣。这些交易的范围从制定原则的机制到将这些原则应用到具体环境。具体的主题领域包括:a)开发和维护方法和模型,例如软件系统的规范、设计和实现的技术和原则,包括符号和过程模型;b)评估方法,例如软件测试和验证、可靠性模型、测试和诊断程序,用于错误控制的软件冗余和设计,以及过程和产品各个方面的测量和评估;c)软件项目管理,例如生产力因素、成本模型、进度和组织问题、标准;d)工具和环境,例如特定工具,集成工具环境,包括相关的体系结构、数据库、并行和分布式处理问题;e)系统问题,例如硬件-软件权衡;f)最新调查,提供对某一特定关注领域历史发展的综合和全面审查。 官网地址:http://dblp.uni-trier.de/db/journals/tse/
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
57+阅读 · 2020年5月9日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
注意力机制介绍,Attention Mechanism
专知会员服务
166+阅读 · 2019年10月13日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员