这本书由数据库和网络技术的权威撰写,对学生和实践者都是必不可少的读本。Web和Internet商务的普及提供了许多非常大的数据集,可以通过数据挖掘从中收集信息。这本书集中在实用的算法,已被用来解决关键问题的数据挖掘,并可以成功地应用到即使是最大的数据集。它首先讨论MapReduce框架,这是自动并行化算法的一个重要工具。作者解释了对位置敏感的哈希和流处理算法的技巧,这些算法用于挖掘到达速度过快而无法进行详尽处理的数据。其他章节介绍了PageRank的思想和组织Web的相关技巧,发现频繁项目集和集群的问题。这第三版包括新的和扩展的覆盖决策树,深度学习,和挖掘社会网络图。

  1. 分布式文件系统和map-reduce作为创建并行算法的工具,可以成功地处理大量数据。

  2. 相似度搜索,包括minhashing和localitysensitive hashing的关键技术。3.数据流处理和专门的算法,用于处理快速到达的数据,这些数据必须立即处理,否则就会丢失。

  3. 搜索引擎的技术,包括谷歌的PageRank,链接垃圾邮件检测,以及中心和权威的方法。

  4. 频繁项集挖掘,包括关联规则、市场篮子、a -先验算法及其改进。

  5. 算法聚类非常大,高维数据集。

  6. Web应用程序的两个关键问题:管理广告和推荐系统。

  7. 用于分析和挖掘非常大的图的结构的算法,特别是社会网络图。

  8. 通过降维获得大数据集重要属性的技术,包括奇值分解和潜在语义索引。

  9. 机器学习算法,可以应用于非常大的数据,如感知机,支持向量机,梯度下降,和决策树。

  10. 神经网络和深度学习,包括最重要的特殊情况:卷积和递归神经网络,以及长短时记忆网络。

成为VIP会员查看完整内容
80

相关内容

干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
229+阅读 · 2020年5月2日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
104+阅读 · 2020年3月22日
【资源】元学习相关资源汇总
专知
31+阅读 · 2019年7月10日
最新版本开源情报工具和资源手册(一)
黑白之道
9+阅读 · 2019年6月23日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
33款可用来抓数据的开源爬虫软件工具 (推荐收藏)
数据科学浅谈
7+阅读 · 2017年7月29日
推荐几本学习自然语言处理相关的书籍
AINLP
7+阅读 · 2016年10月12日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
【资源】元学习相关资源汇总
专知
31+阅读 · 2019年7月10日
最新版本开源情报工具和资源手册(一)
黑白之道
9+阅读 · 2019年6月23日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
33款可用来抓数据的开源爬虫软件工具 (推荐收藏)
数据科学浅谈
7+阅读 · 2017年7月29日
推荐几本学习自然语言处理相关的书籍
AINLP
7+阅读 · 2016年10月12日
微信扫码咨询专知VIP会员