基于局部窗口的自注意力(local-window Self-attention)可以广泛应用在多个视觉任务上,然而它在应用的过程中面临两个问题:(1)感受野受限;(2)通道维度上的建模能力较弱。这是因为该方法在没有重叠的局部窗口上做自注意力操作并且在通道维度共享参数导致的。论文提出了一种通用模型MixFormer,旨在解决上述问题。首先,MixFormer基于平行分支设计(parallel design),将局部自注意力(local-window Self-attention)与通道分离卷积(depth-wise Convolution)进行结合,融合了局部窗口的信息,扩大了感受野;其次,MixFormer根据不同分支上操作共享参数的维度不同,在平行分支之间,MixFormer提出双向交互模块(bi-directional interaction),融合不同维度信息,增强模型在各个维度的建模能力。基于以上两点,MixFormer作为一个通用的模型,在图像分类、目标检测、实例分割、语义分割、人体关键点检测、长尾实例分割等多个视觉任务上都取得了SOTA的结果。
作者:Qiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu, Errui Ding, Jian Cheng, Jingdong Wang