深度神经网络在计算机视觉任务中取得了显著的成功。现有的神经网络主要在固定输入尺寸的空间域内运行。在实际应用中,图像通常很大,必须向下采样到预定的神经网络输入大小。尽管下行采样操作减少了计算量和所需的通信带宽,但它同时在不影响冗余和显著信息的前提下消除了冗余和显著信息,从而导致精度下降。受数字信号处理理论的启发,我们从频率的角度分析了频谱偏差,提出了一种基于学习的频率选择方法来识别可以在不损失精度的情况下去除的琐碎频率分量。提出的频域学习方法利用众所周知的神经网络的相同结构,如ResNet-50、MobileNetV2和Mask R-CNN,同时接受频域信息作为输入。实验结果表明,与传统的空间降采样方法相比,基于静态信道选择的频域学习方法可以获得更高的精度,同时进一步减小了输入数据的大小。针对相同输入大小的ImageNet分类,分别在ResNet-50和MobileNetV2上实现了1.41%和0.66%的top-1精度改进。即使只有一半的输入大小,该方法仍然可以将ResNet-50的前1位精度提高1%。此外,我们还观察到,在COCO数据集的实例分割方面,Mask R-CNN的平均精度提高了0.8%。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“FDL” 就可以获取《【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain》专知下载链接