Few ideas have enjoyed as large an impact on deep learning as convolution. For any problem involving pixels or spatial representations, common intuition holds that convolutional neural networks may be appropriate. In this paper we show a striking counterexample to this intuition via the seemingly trivial coordinate transform problem, which simply requires learning a mapping between coordinates in (x,y) Cartesian space and one-hot pixel space. Although convolutional networks would seem appropriate for this task, we show that they fail spectacularly. We demonstrate and carefully analyze the failure first on a toy problem, at which point a simple fix becomes obvious. We call this solution CoordConv, which works by giving convolution access to its own input coordinates through the use of extra coordinate channels. Without sacrificing the computational and parametric efficiency of ordinary convolution, CoordConv allows networks to learn either complete translation invariance or varying degrees of translation dependence, as required by the end task. CoordConv solves the coordinate transform problem with perfect generalization and 150 times faster with 10--100 times fewer parameters than convolution. This stark contrast raises the question: to what extent has this inability of convolution persisted insidiously inside other tasks, subtly hampering performance from within? A complete answer to this question will require further investigation, but we show preliminary evidence that swapping convolution for CoordConv can improve models on a diverse set of tasks. Using CoordConv in a GAN produced less mode collapse as the transform between high-level spatial latents and pixels becomes easier to learn. A Faster R-CNN detection model trained on MNIST showed 24% better IOU when using CoordConv, and in the RL domain agents playing Atari games benefit significantly from the use of CoordConv layers.
翻译:很少有想法能够像变迁一样对深层学习产生巨大影响。 对于任何涉及像素或空间表达的任何问题, 共同直觉认为, 进化神经网络可能是合适的。 在本文中, 我们通过似乎微不足道的协调转变问题展示出一个惊人的反直觉反比。 这只需要学习( X,y) 卡尔泰西亚空间和一热像素空间坐标之间的映射。 虽然共变网络似乎适合这项任务, 但是我们显示它们失败的程度惊人。 我们首先展示并仔细分析一个与玩具问题有关的失败, 在那点, 一个简单的修正变得显而易见。 我们称之为Coord Convon, 通过使用额外的协调渠道让进化访问到自己的输入坐标。 在不牺牲普通变迁的计算和参数效率的情况下, CoordonConvil允许网络学习完全的翻译或不同程度的翻译依赖性。 Iord Convild Convil 运行模式可以解决协调变换问题, 精确化问题比变现的参数要快150倍。 这个鲜明的对比是: 在变现过程中, 快速变变变变变变变, 将多少? 当我们无法进行这种变现时, 在变变现过程中, 变变变更 变更 更 变 的 更 更 更 更 更 更 更 更 的 更 更 更 更 更 更 更 更 更 更 更 更 更 更 更 更 更 的 更 更 更 的 的 更 更 更 更 更 更 更 的 更 更 的 更 更 的 的 更 的 的 更 更 的 更 更 更 更 更 更 的 的 的 的 更 更 更 更 更 更 更 更 的 更 更 更 的 的 的 的 更 的 的 更 更 更 的 更 更 更 更 更 更 更 的 更 更 更 更 的 的 的 的 的 更 更 更 更 更 更 更 更 更 更 更 更 的 的 的 的 的