【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

书名： Mining of Massive Datasets

前言

这本书是由Jure Leskovec和Anand Rajaraman几年来为斯坦福大学四分之一课程开发的材料发展而来的。名为《网络挖掘》的CS345A课程被设计成一门高级研究生课程，尽管它已经成为高级本科生的必修课和兴趣所在。当Jure Leskovec加入斯坦福大学时，我们对材料进行了大量的重组。他介绍了一门新的网络分析课程CS224W，并在CS345A中加入了新的材料，重新编号为CS246。三位作者还介绍了一个大型数据挖掘项目课程CS341。这本书现在包含了所有三门课程的内容。

主要内容：

在最高级别的描述中，这本书是关于数据挖掘的。但是，它侧重于对非常大的数据进行数据挖掘，也就是说，数据大到无法装入主内存。由于对大小的强调，我们的许多示例都是关于Web或来自Web的数据的。此外，该书采用了算法的观点:数据挖掘是将算法应用于数据，而不是使用数据来训练某种机器学习引擎。主要议题包括:

分布式文件系统和map-reduce作为创建并行算法的工具，可以成功地处理大量数据。
相似度搜索，包括minhashing和localitysensitive hashing的关键技术。
数据流处理和专门的算法，用于处理快速到达的数据，这些数据必须立即处理，否则就会丢失。
搜索引擎的技术，包括谷歌的PageRank，链接垃圾邮件检测，以及hubs-and-authorities的方法。
频繁项集挖掘，包括关联规则、市场篮子、a -先验算法及其改进。
算法聚类非常大，高维数据集。
Web应用程序的两个关键问题:管理广告和推荐系统。
用于分析和挖掘非常大的图的结构的算法，特别是社会网络图。
通过降维获得大数据集重要属性的技术，包括奇值分解和潜在语义索引。
机器学习算法，可以应用于非常大的数据，如感知机，支持向量机，梯度下降。

成为VIP会员查看完整内容

Mining of Massive Datasets.pdf

105

相关内容

斯坦福大学 (Stanford University)

关注 75

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

124+阅读 · 2020年5月30日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【2020新书】简明机器学习导论，电子书与500页PPT

专知会员服务

205+阅读 · 2020年2月7日