Recently, self-attention (SA) structures became popular in computer vision fields. They have locally independent filters and can use large kernels, which contradicts the previously popular convolutional neural networks (CNNs). CNNs success was attributed to the hard-coded inductive biases of locality and spatial invariance. However, recent studies have shown that inductive biases in CNNs are too restrictive. On the other hand, the relative position encodings, similar to depthwise (DW) convolution, are necessary for the local SA networks, which indicates that the SA structures are not entirely spatially variant. Hence, we would like to determine which part of inductive biases contributes to the success of the local SA structures. To do so, we introduced context-aware decomposed attention (CADA), which decomposes attention maps into multiple trainable base kernels and accumulates them using context-aware (CA) parameters. This way, we could identify the link between the CNNs and SA networks. We conducted ablation studies using the ResNet50 applied to the ImageNet classification task. DW convolution could have a large locality without increasing computational costs compared to CNNs, but the accuracy saturates with larger kernels. CADA follows this characteristic of locality. We showed that context awareness was the crucial property; however, large local information was not necessary to construct CA parameters. Even though no spatial invariance makes training difficult, more relaxed spatial invariance gave better accuracy than strict spatial invariance. Also, additional strong spatial invariance through relative position encoding was preferable. We extended these experiments to filters for downsampling and showed that locality bias is more critical for downsampling but can remove the strong locality bias using relaxed spatial invariance.
翻译:最近,自备(SA)结构在计算机视觉场域中变得很受欢迎。 它们拥有本地独立的过滤器, 可以使用大型内核, 这与以前流行的神经神经神经网络(CNNs)相矛盾。 CNN的成功归功于本地和空间差异的硬码感化偏差。 但是, 最近的研究显示CNN的感应偏差过于严格。 另一方面, 相对位置编码, 类似于深度的( DW) 递减, 当地SA 网络是必需的, 类似于深度的( DW) 递减。 这表明 SA 结构并非完全的空间变异。 因此, 我们希望确定哪些偏向性偏向性参数部分有助于本地 SA 结构(CNNs) 的成功。 为了做到这一点, 我们引入了环境- 觉变异性( CADA) 的偏差偏差偏差( CADADA), 将引人注意的图解到多个可调控基内。 这样, 我们就可以辨别CNNWs和SA 网络之间的联系。 我们用ResNet50 应用的相对更精确的更精确的位置进行了研究, 在图像网络内部的变变变变变变变的变变的变的变法中, 比较CADADADADADADADA 的 的变法化的 的 的 的 的 比较了大的 的 的 的 的 的 的 度 度 的 度 度 度 度 度 度 度 度 度 的 的 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度