书名: Mining of Massive Datasets
前言
这本书是由Jure Leskovec和Anand Rajaraman几年来为斯坦福大学四分之一课程开发的材料发展而来的。名为《网络挖掘》的CS345A课程被设计成一门高级研究生课程,尽管它已经成为高级本科生的必修课和兴趣所在。当Jure Leskovec加入斯坦福大学时,我们对材料进行了大量的重组。他介绍了一门新的网络分析课程CS224W,并在CS345A中加入了新的材料,重新编号为CS246。三位作者还介绍了一个大型数据挖掘项目课程CS341。这本书现在包含了所有三门课程的内容。
主要内容:
在最高级别的描述中,这本书是关于数据挖掘的。但是,它侧重于对非常大的数据进行数据挖掘,也就是说,数据大到无法装入主内存。由于对大小的强调,我们的许多示例都是关于Web或来自Web的数据的。此外,该书采用了算法的观点:数据挖掘是将算法应用于数据,而不是使用数据来训练某种机器学习引擎。主要议题包括: