Transformers with remarkable global representation capacities achieve competitive results for visual tasks, but fail to consider high-level local pattern information in input images. In this paper, we present a generic Dual-stream Network (DS-Net) to fully explore the representation capacity of local and global pattern features for image classification. Our DS-Net can simultaneously calculate fine-grained and integrated features and efficiently fuse them. Specifically, we propose an Intra-scale Propagation module to process two different resolutions in each block and an Inter-Scale Alignment module to perform information interaction across features at dual scales. Besides, we also design a Dual-stream FPN (DS-FPN) to further enhance contextual information for downstream dense predictions. Without bells and whistles, the propsed DS-Net outperforms Deit-Small by 2.4% in terms of top-1 accuracy on ImageNet-1k and achieves state-of-the-art performance over other Vision Transformers and ResNets. For object detection and instance segmentation, DS-Net-Small respectively outperforms ResNet-50 by 6.4% and 5.5 % in terms of mAP on MSCOCO 2017, and surpasses the previous state-of-the-art scheme, which significantly demonstrates its potential to be a general backbone in vision tasks. The code will be released soon.


翻译:具有显著全球代表性能力的变异器在视觉任务方面实现竞争性结果,但未能考虑投入图像中的高水平本地模式信息。 在本文中,我们提出了一个通用的双流网络(DS-Net),以充分探索本地和全球图像分类模式特征的代表性能力。我们的DS-Net可以同时计算精细和集成的特性,并有效地结合这些特性。具体地说,我们提议了一个内部升级模块,以处理每个区块的2个不同分辨率,以及一个跨系统调整模块,以便在双尺度上进行不同功能的信息互动。此外,我们还设计了一个双流FPN(DS-FPN),以进一步加强下游密集预测的背景资料。没有钟声和哨,支持的DS-Net超越了Deit-Small,在图像Net-1k的上一级精度中以2.4%的速度计算出Deit-Small。我们提议了一个内部升级模块模块,用于处理每个区块的不同分辨率和ResNet。关于目标探测和实例分解,DS-S-Smarall将分别以6.%和5.5%分别比对ResNet-50显示Resweforforformat-50进行背景预测,在201717的模型中将很快显示前的MAS-ass-ass-scmat-com-screal-scma-scmaxx-st-scmaxxx-st-st-st-stal-stal-stal-stal-stal-stal-stal-stal-stal-scrial-scrial-scrodulegal)。

1
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年6月12日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
83+阅读 · 2020年6月21日
专知会员服务
110+阅读 · 2020年3月12日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
微软发布Visual Studio Tools for AI
AI前线
4+阅读 · 2017年11月20日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关资讯
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
微软发布Visual Studio Tools for AI
AI前线
4+阅读 · 2017年11月20日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员