题目: A Survey on Distributed Machine Learning
简介: 在过去十年中,对人工智能的需求已显着增长,并且这种增长得益于机器学习技术的进步以及利用硬件加速的能力,但是,为了提高预测质量并在复杂的应用程序中提供可行的机器学习解决方案,需要大量的训练数据。尽管小型机器学习模型可以使用一定数量的数据进行训练,但用于训练较大模型(例如神经网络)的输入与参数数量成指数增长。由于处理训练数据的需求已经超过了计算机器的计算能力的增长,因此急需在多个机器之间分配机器学习工作量,并将集中式的精力分配到分配的系统上。这些分布式系统提出了新的挑战,最重要的是训练过程的科学并行化和相关模型的创建。本文通过概述传统的(集中的)机器学习方法,探讨了分布式机器学习的挑战和机遇,从而对当前的最新技术进行了广泛的概述,并对现有的技术进行研究。