金字塔图图:改进金字塔结构的变异器在转移基线和金字塔结构 (PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture) - 专知论文

会员服务 ·

0

PyramidTNT · Pyramid · Vision · 变换 · 基准 ·

2022 年 1 月 4 日

PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture

翻译：金字塔图图:改进金字塔结构的变异器在转移基线和金字塔结构

Kai Han,Jianyuan Guo,Yehui Tang,Yunhe Wang

from arxiv, Tech Report. An extension of "Transformer in Transformer" (arXiv:2103.00112)

Transformer networks have achieved great progress for computer vision tasks. Transformer-in-Transformer (TNT) architecture utilizes inner transformer and outer transformer to extract both local and global representations. In this work, we present new TNT baselines by introducing two advanced designs: 1) pyramid architecture, and 2) convolutional stem. The new "PyramidTNT" significantly improves the original TNT by establishing hierarchical representations. PyramidTNT achieves better performances than the previous state-of-the-art vision transformers such as Swin Transformer. We hope this new baseline will be helpful to the further research and application of vision transformer. Code will be available at https://github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorch.

翻译：变异器网络在计算机愿景任务方面取得了巨大进展。变异器( TNT) 结构利用内变异器和外变异器来提取本地和全球代表。在这项工作中,我们通过引入两个先进的设计来介绍新的TNT基线:(1) 金字塔结构,和(2) 革命干。新的“ 金字塔”通过建立等级代表,大大改善了原来的TNT。金字塔( PyramidTNT)比以前最先进的变异器( 如 Swin变异器) 取得更好的业绩。我们希望这个新的基线将有助于对变异器的进一步研究和应用。代码将在 https:// github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorch。

0

相关内容

PyramidTNT

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

324+阅读 · 2020年11月26日

2020数据工程师成长路线图

专知会员服务

41+阅读 · 2020年9月6日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

一文细数73个Vision transformer家族成员

一文细数73个Vision transformer家族成员

极市平台

0+阅读 · 2022年3月17日

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（二十一）

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（二十一）

极市平台

0+阅读 · 2022年1月14日

华为提出PyramidTNT：用金字塔结构改进Transformer！涨点明显！

华为提出PyramidTNT：用金字塔结构改进Transformer！涨点明显！

CVer

1+阅读 · 2022年1月7日

Pale Transformer：新视觉ViT主干

Pale Transformer：新视觉ViT主干

CVer

0+阅读 · 2022年1月2日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于成像机理的遥感影像融合研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于GPGPU和LiDAR波形数据高精效提取三维地形的研究

国家自然科学基金

0+阅读 · 2012年12月31日

高光谱遥感影像分解模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

红树林生境异质性的时空尺度效应与鱼类多样性的维持机制

国家自然科学基金

0+阅读 · 2012年12月31日

梅毒疫苗新靶标-感染依赖性免疫优势抗原的筛选及在菌影递送多表位核酸疫苗中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

车载激光扫描点云与全景影像的高精度配准方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于MUAV平台的ARGIS扩展技术

国家自然科学基金

1+阅读 · 2009年12月31日

基于Surfacelet多尺度积的三维SAR图像去噪与分割

国家自然科学基金

0+阅读 · 2009年12月31日

诱导肿瘤细胞凋亡的新结构真菌次生代谢产物的发现及作用机制研究

国家自然科学基金

0+阅读 · 2008年12月31日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Constrained Sequence-to-Tree Generation for Hierarchical Text Classification

Arxiv

0+阅读 · 2022年4月19日

Efficient Architecture Search for Diverse Tasks

Arxiv

0+阅读 · 2022年4月15日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Text Revision by On-the-Fly Representation Optimization

Arxiv

0+阅读 · 2022年4月15日

Recent Advances of Continual Learning in Computer Vision: An Overview

Recent Advances of Continual Learning in Computer Vision: An Overview

Arxiv

22+阅读 · 2021年9月23日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Reverse Attention for Salient Object Detection

Arxiv

11+阅读 · 2019年4月15日

Dissecting Contextual Word Embeddings: Architecture and Representation

Dissecting Contextual Word Embeddings: Architecture and Representation

Arxiv

22+阅读 · 2018年8月27日

VIP会员

文章信息

相关主题

相关VIP内容

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

324+阅读 · 2020年11月26日

2020数据工程师成长路线图

专知会员服务

41+阅读 · 2020年9月6日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【新书】《知识图谱与大语言模型的协同应用》，544页pdf

军事通信系统：安全行动的支柱

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

【新书】机器学习系统，2620页pdf

相关资讯

一文细数73个Vision transformer家族成员

一文细数73个Vision transformer家族成员

极市平台

0+阅读 · 2022年3月17日

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（二十一）

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（二十一）

极市平台

0+阅读 · 2022年1月14日

华为提出PyramidTNT：用金字塔结构改进Transformer！涨点明显！

华为提出PyramidTNT：用金字塔结构改进Transformer！涨点明显！

CVer

1+阅读 · 2022年1月7日

Pale Transformer：新视觉ViT主干

Pale Transformer：新视觉ViT主干

CVer

0+阅读 · 2022年1月2日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

相关论文

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Constrained Sequence-to-Tree Generation for Hierarchical Text Classification

Arxiv

0+阅读 · 2022年4月19日

Efficient Architecture Search for Diverse Tasks

Arxiv

0+阅读 · 2022年4月15日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Text Revision by On-the-Fly Representation Optimization

Arxiv

0+阅读 · 2022年4月15日

Recent Advances of Continual Learning in Computer Vision: An Overview

Recent Advances of Continual Learning in Computer Vision: An Overview

Arxiv

22+阅读 · 2021年9月23日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Reverse Attention for Salient Object Detection

Arxiv

11+阅读 · 2019年4月15日

Dissecting Contextual Word Embeddings: Architecture and Representation

Dissecting Contextual Word Embeddings: Architecture and Representation

Arxiv

22+阅读 · 2018年8月27日

相关基金

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于成像机理的遥感影像融合研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于GPGPU和LiDAR波形数据高精效提取三维地形的研究

国家自然科学基金

0+阅读 · 2012年12月31日

高光谱遥感影像分解模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

红树林生境异质性的时空尺度效应与鱼类多样性的维持机制

国家自然科学基金

0+阅读 · 2012年12月31日

梅毒疫苗新靶标-感染依赖性免疫优势抗原的筛选及在菌影递送多表位核酸疫苗中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

车载激光扫描点云与全景影像的高精度配准方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于MUAV平台的ARGIS扩展技术

国家自然科学基金

1+阅读 · 2009年12月31日

基于Surfacelet多尺度积的三维SAR图像去噪与分割

国家自然科学基金

0+阅读 · 2009年12月31日

诱导肿瘤细胞凋亡的新结构真菌次生代谢产物的发现及作用机制研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员