这本书由数据库和网络技术的权威撰写,对学生和实践者都是必不可少的读本。Web和Internet商务的普及提供了许多非常大的数据集,可以通过数据挖掘从中收集信息。这本书集中在实用的算法,已被用来解决关键问题的数据挖掘,并可以成功地应用到即使是最大的数据集。它首先讨论MapReduce框架,这是自动并行化算法的一个重要工具。作者解释了对位置敏感的哈希和流处理算法的技巧,这些算法用于挖掘到达速度过快而无法进行详尽处理的数据。其他章节介绍了PageRank的思想和组织Web的相关技巧,发现频繁项目集和集群的问题。这第三版包括新的和扩展的覆盖决策树,深度学习,和挖掘社会网络图。
分布式文件系统和map-reduce作为创建并行算法的工具,可以成功地处理大量数据。
相似度搜索,包括minhashing和localitysensitive hashing的关键技术。3.数据流处理和专门的算法,用于处理快速到达的数据,这些数据必须立即处理,否则就会丢失。
搜索引擎的技术,包括谷歌的PageRank,链接垃圾邮件检测,以及中心和权威的方法。
频繁项集挖掘,包括关联规则、市场篮子、a -先验算法及其改进。
算法聚类非常大,高维数据集。
Web应用程序的两个关键问题:管理广告和推荐系统。
用于分析和挖掘非常大的图的结构的算法,特别是社会网络图。
通过降维获得大数据集重要属性的技术,包括奇值分解和潜在语义索引。
机器学习算法,可以应用于非常大的数据,如感知机,支持向量机,梯度下降,和决策树。
神经网络和深度学习,包括最重要的特殊情况:卷积和递归神经网络,以及长短时记忆网络。