广告系统的神经网络通常从多种资源中获取输入,如查询广告相关性、广告特征和用户画像。这些输入被编码成一个或多位热的二进制特性,通常每个示例只有一小部分非零的特性值。在线广告行业的深度学习模型可能有TB级的参数,这些参数既不适合GPU内存,也不适合计算节点上的CPU主内存。例如,一个赞助的在线广告系统可以包含超过10^11个稀疏特征,使得神经网络成为一个大约有10tb参数的大型模型。本文介绍了一种用于大规模深度学习ADS系统的分布式GPU分级参数服务器。我们提出了一种利用GPU高带宽内存、CPU主存和SSD作为三层分层存储的分层工作流。所有的神经网络训练计算都包含在GPU中。对真实数据的大量实验证实了该系统的有效性和可扩展性。在MPI集群中,一个4节点的层次化GPU参数服务器可以比内存中150节点的分布式参数服务器多训练2倍以上的模型。此外,我们提出的系统的性价比是MPI-cluster解决方案的4-9倍。