Pattern Attention Transformer基于多福糖球体卷积核 (Pattern Attention Transformer with Doughnut Kernel) - 专知论文

会员服务 ·

0

变换 · 核化 · Attention · Performer · Swin Transformer ·

2023 年 3 月 17 日

Pattern Attention Transformer with Doughnut Kernel

翻译：Pattern Attention Transformer基于多福糖球体卷积核

We present in this paper a new architecture, the Pattern Attention Transformer (PAT), that is composed of the new doughnut kernel. Compared with tokens in the NLP field, Transformer in computer vision has the problem of handling the high resolution of pixels in images. In ViT, an image is cut into square-shaped patches. As the follow-up of ViT, Swin Transformer proposes an additional step of shifting to decrease the existence of fixed boundaries, which also incurs 'two connected Swin Transformer blocks' as the minimum unit of the model. Inheriting the patch/window idea, our doughnut kernel enhances the design of patches further. It replaces the line-cut boundaries with two types of areas: sensor and updating, which is based on the comprehension of self-attention (named QKVA grid). The doughnut kernel also brings a new topic about the shape of kernels beyond square. To verify its performance on image classification, PAT is designed with Transformer blocks of regular octagon shape doughnut kernels. Its architecture is lighter: the minimum pattern attention layer is only one for each stage. Under similar complexity of computation, its performances on ImageNet 1K reach higher throughput (+10%) and surpass Swin Transformer (+0.1 acc1).

翻译：本文提出了一种新的网络结构，即Pattern Attention Transformer（PAT），它是由新的多福糖球体卷积核构成的。与NLP领域中的标记相比，计算机视觉中的Transformer处理高分辨率像素图像的问题。在ViT中，将图像切成正方形的块。作为ViT的后续，Swin Transformer提出了一个附加步骤来减少固定边界的存在，这也产生了“两个连接的Swin变换器块”作为模型的最小单元。继承了补丁/窗口思想，我们的多福糖球体卷积核进一步增强了补丁的设计。它用传感器和更新两种区域替换了线切边界，这是基于自我关注（名为QKVA网格）的理解。多福糖球体卷积核还带来了关于卷积核形状的新话题，超越正方形形状的设计。为了验证其在图像分类方面的性能，PAT是由规则八边形形状的多福糖球体卷积核的Transformer块组成的。该架构更轻巧：每个阶段的最小pattern attention层仅为1。在类似的计算复杂性下，ImageNet 1K上的性能与Swin Transformer相比具有更高的吞吐量（+10％），并且超过了Swin Transformer（+0.1 acc1）。

0

相关内容

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

专知会员服务

84+阅读 · 2020年6月21日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

ECCV 2022 | PanoFormer: 首个360°全景定制的单目深度估计Transformer

ECCV 2022 | PanoFormer: 首个360°全景定制的单目深度估计Transformer

PaperWeekly

0+阅读 · 2022年8月30日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

13小时2600赞，特斯拉大佬Karpathy博客《A Recipe for Training Neural Networks》

13小时2600赞，特斯拉大佬Karpathy博客《A Recipe for Training Neural Networks》

专知

18+阅读 · 2019年4月26日

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

泡泡机器人SLAM

33+阅读 · 2018年8月6日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

论文共读 | Attention is All You Need

论文共读 | Attention is All You Need

黑龙江大学自然语言处理实验室

14+阅读 · 2017年9月7日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于差分多光谱成像原理的铸坯表面高温场连续测量传感器

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像稀疏特性的图像表示、编码与重建研究

国家自然科学基金

2+阅读 · 2014年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

基于对象多尺度特征深度学习的遥感影像变化检测方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于稀疏分解和非局部平均的乘性噪声图像滤波

国家自然科学基金

0+阅读 · 2012年12月31日

基于多传感器网络的大尺寸薄壁物体的三维测量与建模

国家自然科学基金

0+阅读 · 2012年12月31日

Wnt-Notch和Wnt-ERBB信号通路调控NSCLC上皮间质转化和耐药的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

超精度视频内容三维重建

国家自然科学基金

0+阅读 · 2011年12月31日

p进表示的伽罗瓦上同调

国家自然科学基金

0+阅读 · 2008年12月31日

Understanding Gaussian Attention Bias of Vision Transformers Using Effective Receptive Fields

Arxiv

0+阅读 · 2023年5月8日

Toward Large Kernel Models

Arxiv

0+阅读 · 2023年5月4日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

Arxiv

21+阅读 · 2022年9月27日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

MATCH: Metadata-Aware Text Classification in A Large Hierarchy

Arxiv

12+阅读 · 2021年2月15日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

VIP会员

文章信息

相关主题

Swin Transformer

相关VIP内容

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

专知会员服务

84+阅读 · 2020年6月21日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】移动计算摄影的神经场表示

大语言模型遇见法律人工智能：综述

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

美军用无人地面战车发展：现代战争中超越弹药的多元应用

相关资讯

ECCV 2022 | PanoFormer: 首个360°全景定制的单目深度估计Transformer

ECCV 2022 | PanoFormer: 首个360°全景定制的单目深度估计Transformer

PaperWeekly

0+阅读 · 2022年8月30日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

13小时2600赞，特斯拉大佬Karpathy博客《A Recipe for Training Neural Networks》

13小时2600赞，特斯拉大佬Karpathy博客《A Recipe for Training Neural Networks》

专知

18+阅读 · 2019年4月26日

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

泡泡机器人SLAM

33+阅读 · 2018年8月6日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

论文共读 | Attention is All You Need

论文共读 | Attention is All You Need

黑龙江大学自然语言处理实验室

14+阅读 · 2017年9月7日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Understanding Gaussian Attention Bias of Vision Transformers Using Effective Receptive Fields

Arxiv

0+阅读 · 2023年5月8日

Toward Large Kernel Models

Arxiv

0+阅读 · 2023年5月4日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

Arxiv

21+阅读 · 2022年9月27日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

MATCH: Metadata-Aware Text Classification in A Large Hierarchy

Arxiv

12+阅读 · 2021年2月15日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

相关基金

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于差分多光谱成像原理的铸坯表面高温场连续测量传感器

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像稀疏特性的图像表示、编码与重建研究

国家自然科学基金

2+阅读 · 2014年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

基于对象多尺度特征深度学习的遥感影像变化检测方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于稀疏分解和非局部平均的乘性噪声图像滤波

国家自然科学基金

0+阅读 · 2012年12月31日

基于多传感器网络的大尺寸薄壁物体的三维测量与建模

国家自然科学基金

0+阅读 · 2012年12月31日

Wnt-Notch和Wnt-ERBB信号通路调控NSCLC上皮间质转化和耐药的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

超精度视频内容三维重建

国家自然科学基金

0+阅读 · 2011年12月31日

p进表示的伽罗瓦上同调

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员