其中,是执行通道混合的线性投影层,f 是深度卷积。,其中是以 i 为中心的局部窗口,w 表示 f 的卷积权重。因此,上述公式通过元素乘法明确引入了相邻特征和之间的相互作用。作者将 gConv 中的相互作用视为一阶相互作用,因为每个仅与其相邻特征相互作用一次。 High-order interactions with recursive gating 在与 gConv 实现有效的 1 阶空间相互作用后,作者设计了,这是一种递归门卷积,通过引入高阶相互作用来进一步增强模型容量。形式上,首先使用获得一组投影特征和:
然后,作者通过以下方式递归执行 gating 卷积:
其中,将输出缩放 1/α 以稳定训练。是一组深度卷积层,用于按不同阶匹配维数。
最后,作者将最后一个递归步骤的输出馈送到投影层,以获得的结果。从递归公式方程可以很容易地看出,的交互阶在每一步后将增加 1。因此,可以看到,实现了 n 阶空间相互作用。还值得注意的是,只需要一个 f 来执行深度卷积,以串联特征,而不是像上面等式中那样计算每个递归步骤中的卷积,这可以进一步简化实现并提高 GPU 的效率。为了确保高阶交互不会引入太多计算开销,作者将每个阶中的通道维度设置为:
该设计表明,以从粗到细的方式执行交互,其中较低的阶数是用较少的通道计算的。此外,的通道维数正好为 2C,即使 n 增加,总的浮点也可以严格有界。
Relation to dot-product self-attention 尽管本文的的计算与点积自注意有很大差异,但作者将证明也实现了输入自适应空间混合的目标。假设 M 是通过多头自注意力(MHSA)获得的注意力矩阵,将 M 写为(),因为混合权重可能在通道中变化。位置 i 处第 c 个通道的空间混合结果(在最终通道混合投影之前)为:
其中,w_V 是 V 投影层的权重。注意,通过点积运算获得的m_ij包含一阶相互作用。另一方面,的输出(在之前)可以写成: