在这项工作中,我们介绍了一系列的架构修改,旨在提高神经网络的准确性,同时保持他们的GPU训练和推理效率。我们首先演示和讨论由flops优化引起的瓶颈。然后,我们建议更好地利用GPU结构和资产的替代设计。最后,我们介绍了一种新的GPU专用模型,称为TResNet,它比以前的ConvNets具有更好的准确性和效率。使用TResNet模型,与ResNet50的GPU吞吐量相似,在ImageNet上达到80.7%的top-1精度。我们的TResNet模型也能很好地传输竞争数据集,并达到最先进的精度,如Stanford cars(96.0%)、CIFAR-10(99.0%)、CIFAR-100(91.5%)和牛津花卉(99.1%)。实现可在:这个