http://www.mmds.org/?WT.mc_id=IOC-NC-PQT-CS-Leskovec-US
这本书由数据库和网络技术的权威撰写,对学生和实践者都是必不可少的读本。Web和Internet商务的普及提供了许多非常大的数据集,可以通过数据挖掘从中收集信息。这本书集中在实用的算法,已被用来解决关键问题的数据挖掘,并可以成功地应用到即使是最大的数据集。它首先讨论MapReduce框架,这是自动并行化算法的一个重要工具。作者解释了对位置敏感的哈希和流处理算法的技巧,这些算法用于挖掘到达速度过快而无法进行详尽处理的数据。其他章节介绍了PageRank的思想和组织Web的相关技巧,发现频繁项目集和集群的问题。这第三版包括新的和扩展的覆盖决策树,深度学习,和挖掘社会网络图。
1. 分布式文件系统和map-reduce作为创建并行算法的工具,可以成功地处理大量数据。
2. 相似度搜索,包括minhashing和localitysensitive hashing的关键技术。3.数据流处理和专门的算法,用于处理快速到达的数据,这些数据必须立即处理,否则就会丢失。
4. 搜索引擎的技术,包括谷歌的PageRank,链接垃圾邮件检测,以及中心和权威的方法。
5. 频繁项集挖掘,包括关联规则、市场篮子、a -先验算法及其改进。
6. 算法聚类非常大,高维数据集。
7. Web应用程序的两个关键问题:管理广告和推荐系统。
8. 用于分析和挖掘非常大的图的结构的算法,特别是社会网络图。
9. 通过降维获得大数据集重要属性的技术,包括奇值分解和潜在语义索引。
10. 机器学习算法,可以应用于非常大的数据,如感知机,支持向量机,梯度下降,和决策树。
11. 神经网络和深度学习,包括最重要的特殊情况:卷积和递归神经网络,以及长短时记忆网络。
1. Data mining
2. MapReduce and the new software stack
3. Finding similar items
4. Mining data streams
5. Link analysis
6. Frequent itemsets
7. Clustering
8. Advertising on the web
9. Recommendation systems
10. Mining social-network graphs
11. Dimensionality reduction
12. Large-scale machine learning
13. Neural nets and deep learning
Index.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“MMDB” 就可以获取《【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》603页pdf》专知下载链接