We present Mobile-Former, a parallel design of MobileNet and transformer with a two-way bridge in between. This structure leverages the advantages of MobileNet at local processing and transformer at global interaction. And the bridge enables bidirectional fusion of local and global features. Different from recent works on vision transformer, the transformer in Mobile-Former contains very few tokens (e.g. 6 or fewer tokens) that are randomly initialized to learn global priors, resulting in low computational cost. Combining with the proposed light-weight cross attention to model the bridge, Mobile-Former is not only computationally efficient, but also has more representation power. It outperforms MobileNetV3 at low FLOP regime from 25M to 500M FLOPs on ImageNet classification. For instance, Mobile-Former achieves 77.9\% top-1 accuracy at 294M FLOPs, gaining 1.3\% over MobileNetV3 but saving 17\% of computations. When transferring to object detection, Mobile-Former outperforms MobileNetV3 by 8.6 AP in RetinaNet framework. Furthermore, we build an efficient end-to-end detector by replacing backbone, encoder and decoder in DETR with Mobile-Former, which outperforms DETR by 1.1 AP but saves 52\% of computational cost and 36\% of parameters.


翻译:我们展示了移动- Former, 移动网络和变压器的平行设计, 中间有双向桥梁。 这个结构在本地处理和变压器上利用了移动网络的优势, 在全球互动中, 这个结构在本地处理和变压器上利用了移动- Former 的优势。 这个桥可以使本地和全球特性双向融合。 不同于最近关于视觉变压器的工程, 移动- Former 的变压器含有很少的随机初始化符号( 例如6个或更少的表示器), 以学习全球前科, 导致计算成本低。 结合了拟议对模拟桥的轻度交叉关注, 移动- Former 不仅计算效率高, 而且还具有更大的代表力。 它在低FLOP 系统下, 从 25M 到 500M FLOP 的移动- FLOPs 上优于移动网络 3 。 例如, 移动- Flive- Former 的变压器实现了77.9+ 1的精度精确度, 在移动- Net 3 和 DETR 格式 框架中, 以最终 取代了 的 。

0
下载
关闭预览

相关内容

Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
103+阅读 · 2020年8月30日
专知会员服务
60+阅读 · 2020年3月19日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
重磅!MobileNetV3 来了!
计算机视觉life
4+阅读 · 2019年5月11日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
一文读懂目标检测模型(附论文资源)
数据派THU
8+阅读 · 2018年5月27日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
相关资讯
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
重磅!MobileNetV3 来了!
计算机视觉life
4+阅读 · 2019年5月11日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
一文读懂目标检测模型(附论文资源)
数据派THU
8+阅读 · 2018年5月27日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
相关论文
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Top
微信扫码咨询专知VIP会员