This paper jointly resolves two problems in vision transformer: i) the computation of Multi-Head Self-Attention (MHSA) has high computational/space complexity; ii) recent vision transformer networks are overly tuned for image classification, ignoring the difference between image classification (simple scenarios, more similar to NLP) and downstream scene understanding tasks (complicated scenarios, rich structural and contextual information). To this end, we note that pyramid pooling has been demonstrated to be effective in various vision tasks owing to its powerful context abstraction, and its natural property of spatial invariance is suitable to address the loss of structural information (problem ii)). Hence, we propose to adapt pyramid pooling to MHSA for alleviating its high requirement on computational resources (problem i)). In this way, this pooling-based MHSA can well address the above two problems and is thus flexible and powerful for downstream scene understanding tasks. Plugged with our pooling-based MHSA, we build a downstream-task-oriented transformer network, dubbed Pyramid Pooling Transformer (P2T). Extensive experiments demonstrate that, when applied P2T as the backbone network, it shows substantial superiority in various downstream scene understanding tasks such as semantic segmentation, object detection, instance segmentation, and visual saliency detection, compared to previous CNN- and transformer-based networks. The code will be released at https://github.com/yuhuan-wu/P2T. Note that this technical report will keep updating.


翻译:本文共同解决了视觉变压器的两个问题:(一) 多头自我保护(MHSA)的计算具有很高的计算/空间复杂性;(二) 最近的视觉变压器网络过于适应图像分类,忽视了图像分类(简单情景,更类似于NLP)和下游现场理解任务(复杂情景、丰富的结构和背景信息)之间的差异。为此,我们注意到金字塔集合已证明在各种视觉任务中是有效的,因为它具有强大的背景抽象,而其空间变异的自然属性适合于解决结构信息损失(问题二)。 因此,我们提议将金字塔集合调整为MHSA,以减轻其对计算资源(问题一)的高度需求。 这样,这种基于集合的MHSA可以解决上述两个问题,因此对于下游场理解任务具有灵活性和力量。 与我们基于联合的MHSA一道,我们建立了一个面向下游塔克的变压器网络,调压了Pyramid 变压器(P2T)的自然特性。我们提议将金字串联改编改动到Myramid Gloarrial-dealisal latial laudal laudal laudal laudal laud laud laud laud laud lauds laud lauds laud lauds laud lauds laud laud laubal labal labal lauds labal laud lauds labit labild labal labildow labild labild labal labil labild lauds lauds labal labild labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal labal 将持续演演演演演演演演演演演演演演演演演演演演演演演

0
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
NeurIPS2020最新《深度对话人工智能》教程,130页ppt
专知会员服务
42+阅读 · 2020年12月10日
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
4+阅读 · 2019年9月5日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Deformable ConvNets v2: More Deformable, Better Results
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员