BiSeNet已被证明在实时分割two-stream网络中是有效的。但是,其添加额外path以对空间信息进行编码的原理很耗时,并且由于缺少任务专用设计,因此从预训练任务(例如图像分类)中借用的主干可能无法有效地进行图像分割。
为了解决这些问题,作者提出了一种新颖且有效的结构,即通过消除结构冗余来缓解以上的耗时问题(Short-Term Dense Concatenate network)。具体来说,本文将特征图的维数逐渐降低,并将特征图聚合起来进行图像表征,形成了STDC网络的基本模块。在decoder中,提出了一个Detail Aggregation module将空间信息的学习以single-stream方式集成到low-level layers中。最后,将low-level features和deep features融合以预测最终的分割结果。