【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions - 专知VIP

会员服务 ·

0

CVPR 2022 · 特征聚合 · 基于局部窗口的自注意力 · 中科院自动化所 · 论文 ·

2022 年 3 月 19 日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基于局部窗口的自注意力（local-window Self-attention）可以广泛应用在多个视觉任务上，然而它在应用的过程中面临两个问题：（1）感受野受限；（2）通道维度上的建模能力较弱。这是因为该方法在没有重叠的局部窗口上做自注意力操作并且在通道维度共享参数导致的。论文提出了一种通用模型MixFormer，旨在解决上述问题。首先，MixFormer基于平行分支设计（parallel design），将局部自注意力（local-window Self-attention）与通道分离卷积（depth-wise Convolution）进行结合，融合了局部窗口的信息，扩大了感受野；其次，MixFormer根据不同分支上操作共享参数的维度不同，在平行分支之间，MixFormer提出双向交互模块(bi-directional interaction)，融合不同维度信息，增强模型在各个维度的建模能力。基于以上两点，MixFormer作为一个通用的模型，在图像分类、目标检测、实例分割、语义分割、人体关键点检测、长尾实例分割等多个视觉任务上都取得了SOTA的结果。

作者：Qiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu, Errui Ding, Jian Cheng, Jingdong Wang

成为VIP会员查看完整内容

15

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

17+阅读 · 2022年3月19日

【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

专知会员服务

7+阅读 · 2022年3月19日

【CVPR 2022】C2AM损失：为长尾目标检测任务追求更好的决策边界，C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection

【CVPR 2022】C2AM损失：为长尾目标检测任务追求更好的决策边界，C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection

专知会员服务

7+阅读 · 2022年3月19日

【CVPR 2022】基于windows的图像压缩注意，The Devil Is in the Details: Window-based Attention for Image Compression

【CVPR 2022】基于windows的图像压缩注意，The Devil Is in the Details: Window-based Attention for Image Compression

专知会员服务

8+阅读 · 2022年3月12日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞

【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞

专知会员服务

34+阅读 · 2021年5月5日

近期必读的5篇顶会CVPR 2021【行为识别】相关论文和代码

专知会员服务

60+阅读 · 2021年3月17日

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

专知会员服务

38+阅读 · 2019年12月26日

CVPR 2022 | 清华开源ACmix：自注意力和CNN的融合！性能速度全面提升！

CVPR 2022 | 清华开源ACmix：自注意力和CNN的融合！性能速度全面提升！

CVer

0+阅读 · 2022年4月10日

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVer

0+阅读 · 2022年4月6日

CVPR 2022｜打破传统的跟踪范式！南大开源MixFormer：端到端目标检测新模型

CVPR 2022｜打破传统的跟踪范式！南大开源MixFormer：端到端目标检测新模型

极市平台

2+阅读 · 2022年3月24日

CVPR 2022 | Transformer再屠榜！南大提出MixFormer：端到端目标跟踪新网络

CVPR 2022 | Transformer再屠榜！南大提出MixFormer：端到端目标跟踪新网络

CVer

1+阅读 · 2022年3月23日

CVPR 2022 | 新主干！MPViT：用于密集预测的多路径视觉Transformer

CVPR 2022 | 新主干！MPViT：用于密集预测的多路径视觉Transformer

CVer

2+阅读 · 2022年3月14日

将大核卷积分三步，清华胡事民、南开程明明团队全新视觉骨干VAN，超越SOTA ViT和CNN

将大核卷积分三步，清华胡事民、南开程明明团队全新视觉骨干VAN，超越SOTA ViT和CNN

极市平台

0+阅读 · 2022年2月28日

ICLR 2022 | 首次实现用MLP做检测和分割！上科大和腾讯开源AS-MLP：一种轴向位移的MLP框架

ICLR 2022 | 首次实现用MLP做检测和分割！上科大和腾讯开源AS-MLP：一种轴向位移的MLP框架

极市平台

1+阅读 · 2022年2月13日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

CNN和Transformer再组合！UniFormer：新的主干网络！在六大视觉任务上大放光彩！

CNN和Transformer再组合！UniFormer：新的主干网络！在六大视觉任务上大放光彩！

CVer

2+阅读 · 2022年1月25日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

极市平台

0+阅读 · 2021年10月21日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频刺激fMRI的视觉特征神经编码空间研究

国家自然科学基金

0+阅读 · 2014年12月31日

行人检测中粒度空间特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合异构信息的低秩分解推荐模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

航空发动机包线内气路故障融合诊断机理及方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

巡线机器人动态时变环境下的特征识别与路径规划研究

国家自然科学基金

1+阅读 · 2013年12月31日

不均衡直流集成光伏模块串并联系统研究

国家自然科学基金

0+阅读 · 2012年12月31日

空-谱融合高光谱遥感影像混合像元稀疏分解与空间定位

国家自然科学基金

1+阅读 · 2012年12月31日

基于多通道体全息光学相关的遥感图像多维线/角位移测量技术

国家自然科学基金

0+阅读 · 2011年12月31日

Unsupervised Domain Adaptation for Cardiac Segmentation: Towards Structure Mutual Information Maximization

Arxiv

0+阅读 · 2022年4月20日

K-LITE: Learning Transferable Visual Models with External Knowledge

Arxiv

2+阅读 · 2022年4月20日

LingYi: Medical Conversational Question Answering System based on Multi-modal Knowledge Graphs

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Energetically Consistent Model Reduction for Metriplectic Systems

Arxiv

0+阅读 · 2022年4月17日

Text Revision by On-the-Fly Representation Optimization

Arxiv

0+阅读 · 2022年4月15日

Sparse Optical Flow-Based Line Feature Tracking

Arxiv

0+阅读 · 2022年4月15日

Adaptive Correlation Filters with Long-Term and Short-Term Memory for Object Tracking

Arxiv

11+阅读 · 2018年3月23日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

Contextual and Position-Aware Factorization Machines for Sentiment Classification

Arxiv

13+阅读 · 2018年1月18日

VIP会员

相关主题

基于局部窗口的自注意力

中科院自动化所

相关VIP内容

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

17+阅读 · 2022年3月19日

【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

【CVPR 2022】基于层次化视觉语言知识蒸馏的开放词汇单阶段检测，Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning

专知会员服务

7+阅读 · 2022年3月19日

【CVPR 2022】C2AM损失：为长尾目标检测任务追求更好的决策边界，C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection

【CVPR 2022】C2AM损失：为长尾目标检测任务追求更好的决策边界，C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection

专知会员服务

7+阅读 · 2022年3月19日

【CVPR 2022】基于windows的图像压缩注意，The Devil Is in the Details: Window-based Attention for Image Compression

【CVPR 2022】基于windows的图像压缩注意，The Devil Is in the Details: Window-based Attention for Image Compression

专知会员服务

8+阅读 · 2022年3月12日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞

【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞

专知会员服务

34+阅读 · 2021年5月5日

近期必读的5篇顶会CVPR 2021【行为识别】相关论文和代码

专知会员服务

60+阅读 · 2021年3月17日

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

【斯坦福大学】具有共同注意力的对抗性跨域动作识别（Adversarial Cross-Domain Action Recognition with Co-Attention）

专知会员服务

38+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

CVPR 2022 | 清华开源ACmix：自注意力和CNN的融合！性能速度全面提升！

CVPR 2022 | 清华开源ACmix：自注意力和CNN的融合！性能速度全面提升！

CVer

0+阅读 · 2022年4月10日

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVer

0+阅读 · 2022年4月6日

CVPR 2022｜打破传统的跟踪范式！南大开源MixFormer：端到端目标检测新模型

CVPR 2022｜打破传统的跟踪范式！南大开源MixFormer：端到端目标检测新模型

极市平台

2+阅读 · 2022年3月24日

CVPR 2022 | Transformer再屠榜！南大提出MixFormer：端到端目标跟踪新网络

CVPR 2022 | Transformer再屠榜！南大提出MixFormer：端到端目标跟踪新网络

CVer

1+阅读 · 2022年3月23日

CVPR 2022 | 新主干！MPViT：用于密集预测的多路径视觉Transformer

CVPR 2022 | 新主干！MPViT：用于密集预测的多路径视觉Transformer

CVer

2+阅读 · 2022年3月14日

将大核卷积分三步，清华胡事民、南开程明明团队全新视觉骨干VAN，超越SOTA ViT和CNN

将大核卷积分三步，清华胡事民、南开程明明团队全新视觉骨干VAN，超越SOTA ViT和CNN

极市平台

0+阅读 · 2022年2月28日

ICLR 2022 | 首次实现用MLP做检测和分割！上科大和腾讯开源AS-MLP：一种轴向位移的MLP框架

ICLR 2022 | 首次实现用MLP做检测和分割！上科大和腾讯开源AS-MLP：一种轴向位移的MLP框架

极市平台

1+阅读 · 2022年2月13日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

CNN和Transformer再组合！UniFormer：新的主干网络！在六大视觉任务上大放光彩！

CNN和Transformer再组合！UniFormer：新的主干网络！在六大视觉任务上大放光彩！

CVer

2+阅读 · 2022年1月25日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

极市平台

0+阅读 · 2021年10月21日

相关基金

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频刺激fMRI的视觉特征神经编码空间研究

国家自然科学基金

0+阅读 · 2014年12月31日

行人检测中粒度空间特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合异构信息的低秩分解推荐模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

航空发动机包线内气路故障融合诊断机理及方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

巡线机器人动态时变环境下的特征识别与路径规划研究

国家自然科学基金

1+阅读 · 2013年12月31日

不均衡直流集成光伏模块串并联系统研究

国家自然科学基金

0+阅读 · 2012年12月31日

空-谱融合高光谱遥感影像混合像元稀疏分解与空间定位

国家自然科学基金

1+阅读 · 2012年12月31日

基于多通道体全息光学相关的遥感图像多维线/角位移测量技术

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Unsupervised Domain Adaptation for Cardiac Segmentation: Towards Structure Mutual Information Maximization

Arxiv

0+阅读 · 2022年4月20日

K-LITE: Learning Transferable Visual Models with External Knowledge

Arxiv

2+阅读 · 2022年4月20日

LingYi: Medical Conversational Question Answering System based on Multi-modal Knowledge Graphs

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Energetically Consistent Model Reduction for Metriplectic Systems

Arxiv

0+阅读 · 2022年4月17日

Text Revision by On-the-Fly Representation Optimization

Arxiv

0+阅读 · 2022年4月15日

Sparse Optical Flow-Based Line Feature Tracking

Arxiv

0+阅读 · 2022年4月15日

Adaptive Correlation Filters with Long-Term and Short-Term Memory for Object Tracking

Arxiv

11+阅读 · 2018年3月23日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

Contextual and Position-Aware Factorization Machines for Sentiment Classification

Arxiv

13+阅读 · 2018年1月18日

微信扫码咨询专知VIP会员