本书介绍了在并行和分布式计算平台上扩展机器学习和数据挖掘方法的代表性方法的集成集合。对并行学习算法的需求是高度特定于任务的:在某些情况下,并行学习算法是由庞大的数据集驱动的,而在另一些情况下,并行学习算法是由模型复杂性或实时性能需求驱动的。为大规模机器学习选择适合于任务的算法和平台,需要了解可用选项的好处、权衡和约束。本书提供的解决方案涵盖了一系列的并行化平台,从FPGAs和gpu到多核系统和商品集群,并发编程框架包括CUDA、MPI、MapReduce和DryadLINQ,以及学习设置(监督、非监督、半监督和在线学习)。广泛的并行化的推进树,支持向量机,谱聚类,信念传播和其他流行的学习算法,并深入到几个应用,这本书适合研究人员,学生,和从业者。