【ICCV 2021 】Vision Transformer中的相对位置编码 - 专知VIP

会员服务 ·

3

Transformer · 相对位置编码 · ICCV 2021 ·

2021 年 7 月 30 日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在Transformer模型[1,2,6,7,8]中，相对位置编码显式地对任意两个Token的位置关系进行建模，提高了模型的表征能力。它的有效性在自然语言处理领域得到了充分证明[14,15,16,17,18]。然而，在计算机视觉领域，讨论相对位置编码的工作比较少[9,10,11,12,13]且存在不同的观点。由于图像可视为二维的序列，如何将一维相对位置编码推广到二维相对位置编码，解决方案仍不清晰。本篇论文提出了四种二维相对位置编码的映射方式，同时分析了Vision Transformer中影响二维相对位置性能的关键因素，得到了以下有趣的发现：

不需要调整训练的超参数，相对位置编码能给图像分类和目标检测的Vision Transformers模型带来显著的精度提升；
相对位置的方向信息在图像分类、目标检测任务中有着重要作用；
输入相关的相对位置编码比输入无关的相对位置编码更有效；
组合不同嵌入特征上的相对位置编码，能够进一步提升模型的表征能力；
在图像分类任务中，相对位置编码可以完全替代绝对位置编码，因为图像分类不需要预测物体的位置，相对位置编码能够让模型更关注局部信息；在目标检测任务中，相对位置编码能提高模型精度，但绝对位置编码是必须的，因为相对位置编码不能提供物体定位所需的绝对位置信息。 https://houwenpeng.com/publications/iRPE.pdf

成为VIP会员查看完整内容

30

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【CVPR2021】利用神经网络结构比较器的对比神经网络结构搜索

专知会员服务

9+阅读 · 2021年5月18日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

Transformer中的相对位置编码

Transformer中的相对位置编码

AINLP

5+阅读 · 2020年11月28日

用Transformer完全替代CNN

用Transformer完全替代CNN

CVer

20+阅读 · 2020年10月23日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

12+阅读 · 2020年8月30日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

轻量attention模块：Spatial Group-wise Enhance

轻量attention模块：Spatial Group-wise Enhance

极市平台

15+阅读 · 2019年7月3日

干货 | 万物皆可「计算机视觉」

干货 | 万物皆可「计算机视觉」

AI科技评论

6+阅读 · 2019年2月10日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

11+阅读 · 2019年1月8日

利用 Universal Transformer，翻译将无往不利！

利用 Universal Transformer，翻译将无往不利！

谷歌开发者

5+阅读 · 2018年9月4日

论文浅尝 | Distant Supervision for Relation Extraction

论文浅尝 | Distant Supervision for Relation Extraction

开放知识图谱

4+阅读 · 2017年12月25日

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

Arxiv

0+阅读 · 2021年9月30日

UFO-ViT: High Performance Linear Vision Transformer without Softmax

Arxiv

0+阅读 · 2021年9月29日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Domain Generalization in Vision: A Survey

Arxiv

16+阅读 · 2021年7月18日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Fooling Vision and Language Models Despite Localization and Attention Mechanism

Arxiv

7+阅读 · 2018年4月6日

VIP会员

相关主题

相对位置编码

相关VIP内容

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【CVPR2021】利用神经网络结构比较器的对比神经网络结构搜索

专知会员服务

9+阅读 · 2021年5月18日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

Transformer中的相对位置编码

Transformer中的相对位置编码

AINLP

5+阅读 · 2020年11月28日

用Transformer完全替代CNN

用Transformer完全替代CNN

CVer

20+阅读 · 2020年10月23日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

12+阅读 · 2020年8月30日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

轻量attention模块：Spatial Group-wise Enhance

轻量attention模块：Spatial Group-wise Enhance

极市平台

15+阅读 · 2019年7月3日

干货 | 万物皆可「计算机视觉」

干货 | 万物皆可「计算机视觉」

AI科技评论

6+阅读 · 2019年2月10日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

11+阅读 · 2019年1月8日

利用 Universal Transformer，翻译将无往不利！

利用 Universal Transformer，翻译将无往不利！

谷歌开发者

5+阅读 · 2018年9月4日

论文浅尝 | Distant Supervision for Relation Extraction

论文浅尝 | Distant Supervision for Relation Extraction

开放知识图谱

4+阅读 · 2017年12月25日

相关论文

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

Arxiv

0+阅读 · 2021年9月30日

UFO-ViT: High Performance Linear Vision Transformer without Softmax

Arxiv

0+阅读 · 2021年9月29日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Domain Generalization in Vision: A Survey

Arxiv

16+阅读 · 2021年7月18日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Fooling Vision and Language Models Despite Localization and Attention Mechanism

Arxiv

7+阅读 · 2018年4月6日

微信扫码咨询专知VIP会员