本文提出了一个双层级特征协作的Transformer结构,以实现区域特征和网格特征两者的优势互补,并在其中提出了特征几何对齐图来指导特征间的信息交互,从而解决多路特征直接融合带来的语义噪声问题,最终在该任务的线上线下常用公开数据集上均证明了此模型的优势。