近年来,基于完全递归神经网络(RNN)的端到端的语音识别模型在单信道和多信道环境下都被证明是有效的。在这项工作中,我们通过关注两个方面来探索Transformer模型在这些任务中的使用。我们将语音识别模型中基于RNN的编码器解码器替换为Transformer架构。第二,为了使用Transformer 屏蔽网络的神经beamformer在多通道的情况下,我们修改self-attention组件被限制在一段,而不是整个序列,以减少计算。除了模型架构的改进外,我们还加入了外部去重预处理,即加权预测误差(WPE),使我们的模型能够处理混响信号。