【斯坦福大学】《海量数据集挖掘》电子书及相关资源 603页pdf《Mining of Massive Datasets》

2020 年 3 月 30 日 专知

http://www.mmds.org/?WT.mc_id=IOC-NC-PQT-CS-Leskovec-US

这本书由数据库和网络技术的权威撰写，对学生和实践者都是必不可少的读本。Web和Internet商务的普及提供了许多非常大的数据集，可以通过数据挖掘从中收集信息。这本书集中在实用的算法，已被用来解决关键问题的数据挖掘，并可以成功地应用到即使是最大的数据集。它首先讨论MapReduce框架，这是自动并行化算法的一个重要工具。作者解释了对位置敏感的哈希和流处理算法的技巧，这些算法用于挖掘到达速度过快而无法进行详尽处理的数据。其他章节介绍了PageRank的思想和组织Web的相关技巧，发现频繁项目集和集群的问题。这第三版包括新的和扩展的覆盖决策树，深度学习，和挖掘社会网络图。

1. 分布式文件系统和map-reduce作为创建并行算法的工具，可以成功地处理大量数据。

2. 相似度搜索，包括minhashing和localitysensitive hashing的关键技术。3.数据流处理和专门的算法，用于处理快速到达的数据，这些数据必须立即处理，否则就会丢失。

4. 搜索引擎的技术，包括谷歌的PageRank，链接垃圾邮件检测，以及中心和权威的方法。

5. 频繁项集挖掘，包括关联规则、市场篮子、a -先验算法及其改进。

6. 算法聚类非常大，高维数据集。

7. Web应用程序的两个关键问题:管理广告和推荐系统。

8. 用于分析和挖掘非常大的图的结构的算法，特别是社会网络图。

9. 通过降维获得大数据集重要属性的技术，包括奇值分解和潜在语义索引。

10. 机器学习算法，可以应用于非常大的数据，如感知机，支持向量机，梯度下降，和决策树。

11. 神经网络和深度学习，包括最重要的特殊情况:卷积和递归神经网络，以及长短时记忆网络。

1. Data mining
2. MapReduce and the new software stack
3. Finding similar items
4. Mining data streams
5. Link analysis
6. Frequent itemsets
7. Clustering
8. Advertising on the web
9. Recommendation systems
10. Mining social-network graphs
11. Dimensionality reduction
12. Large-scale machine learning
13. Neural nets and deep learning
Index.

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“MMDB” 就可以获取《【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》603页pdf》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日