Can we leverage high-resolution information without the unsustainable quadratic complexity to input scale? We propose Traversal Network (TNet), a novel multi-scale hard-attention architecture, which traverses image scale-space in a top-down fashion, visiting only the most informative image regions along the way. TNet offers an adjustable trade-off between accuracy and complexity, by changing the number of attended image locations. We compare our model against hard-attention baselines on ImageNet, achieving higher accuracy with less resources (FLOPs, processing time and memory). We further test our model on fMoW dataset, where we process satellite images of size up to $896 \times 896$ px, getting up to $2.5$x faster processing compared to baselines operating on the same resolution, while achieving higher accuracy as well. TNet is modular, meaning that most classification models could be adopted as its backbone for feature extraction, making the reported performance gains orthogonal to benefits offered by existing optimized deep models. Finally, hard-attention guarantees a degree of interpretability to our model's predictions, without any extra cost beyond inference. Code is available at $\href{https://github.com/Tpap/TNet}{github.com/Tpap/TNet}$.


翻译:我们能否在不以不可持续的二次复杂程度进入输入比例的情况下利用高分辨率信息? 我们提议Traversal网络(TNet),这是一个新型的多规模硬度搜索结构,以自上而下的方式跨过图像空间,仅访问沿途访问最丰富的图像区域。 TNet通过改变观看图像地点的数量,在准确性和复杂性之间提供了一个可调整的权衡。我们比较了我们的模型,以图像网的硬度基线为对比,以更少的资源(FLOPs、处理时间和记忆)实现更高的准确性。我们进一步测试了我们的FMoW数据集模型,在这个模型中,我们处理的大小为896美元/times 896 px 的卫星图像,与同一分辨率运行的基线相比,其处理速度提高到2.5美元x的更快,同时实现更高的准确性。 TNet是模块化的,这意味着大多数分类模型可以被采纳为特征提取的主干线,使所报告的性能增益或可测量到现有优化深度模型所提供的效益。最后,加固度保证了我们模型预测的可解释性能度,而没有超出任何额外成本。 NAmb_Net/Net/comefus/ atsub_tump_tump_tub_tub_Tsub_QQQ_QQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQ

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
14+阅读 · 2021年5月21日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
18+阅读 · 2021年4月4日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
60+阅读 · 2020年3月19日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Improving Baselines in the Wild
Arxiv
0+阅读 · 2021年12月31日
Arxiv
12+阅读 · 2021年11月1日
Arxiv
12+阅读 · 2019年4月9日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
18+阅读 · 2021年4月4日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
60+阅读 · 2020年3月19日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Top
微信扫码咨询专知VIP会员