最后,作者将最后一个递归步骤的输出馈送到投影层,以获得的结果。从递归公式方程可以很容易地看出,的交互阶在每一步后将增加 1。因此,可以看到,实现了 n 阶空间相互作用。还值得注意的是,只需要一个 f 来执行深度卷积,以串联特征,而不是像上面等式中那样计算每个递归步骤中的卷积,这可以进一步简化实现并提高 GPU 的效率。为了确保高阶交互不会引入太多计算开销,作者将每个阶中的通道维度设置为:
Relation to dot-product self-attention 尽管本文的的计算与点积自注意有很大差异,但作者将证明也实现了输入自适应空间混合的目标。假设 M 是通过多头自注意力(MHSA)获得的注意力矩阵,将 M 写为(),因为混合权重可能在通道中变化。位置 i 处第 c 个通道的空间混合结果(在最终通道混合投影之前)为:
其中,w_V 是 V 投影层的权重。注意,通过点积运算获得的m_ij包含一阶相互作用。另一方面,的输出(在之前)可以写成: