书名: Mining of Massive Datasets

前言

这本书是由Jure Leskovec和Anand Rajaraman几年来为斯坦福大学四分之一课程开发的材料发展而来的。名为《网络挖掘》的CS345A课程被设计成一门高级研究生课程,尽管它已经成为高级本科生的必修课和兴趣所在。当Jure Leskovec加入斯坦福大学时,我们对材料进行了大量的重组。他介绍了一门新的网络分析课程CS224W,并在CS345A中加入了新的材料,重新编号为CS246。三位作者还介绍了一个大型数据挖掘项目课程CS341。这本书现在包含了所有三门课程的内容。

主要内容:

在最高级别的描述中,这本书是关于数据挖掘的。但是,它侧重于对非常大的数据进行数据挖掘,也就是说,数据大到无法装入主内存。由于对大小的强调,我们的许多示例都是关于Web或来自Web的数据的。此外,该书采用了算法的观点:数据挖掘是将算法应用于数据,而不是使用数据来训练某种机器学习引擎。主要议题包括:

  1. 分布式文件系统和map-reduce作为创建并行算法的工具,可以成功地处理大量数据。
  2. 相似度搜索,包括minhashing和localitysensitive hashing的关键技术。
  3. 数据流处理和专门的算法,用于处理快速到达的数据,这些数据必须立即处理,否则就会丢失。
  4. 搜索引擎的技术,包括谷歌的PageRank,链接垃圾邮件检测,以及hubs-and-authorities的方法。
  5. 频繁项集挖掘,包括关联规则、市场篮子、a -先验算法及其改进。
  6. 算法聚类非常大,高维数据集。
  7. Web应用程序的两个关键问题:管理广告和推荐系统。
  8. 用于分析和挖掘非常大的图的结构的算法,特别是社会网络图。
  9. 通过降维获得大数据集重要属性的技术,包括奇值分解和潜在语义索引。
  10. 机器学习算法,可以应用于非常大的数据,如感知机,支持向量机,梯度下降。
成为VIP会员查看完整内容
Mining of Massive Datasets.pdf
104

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
201+阅读 · 2020年2月7日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
341+阅读 · 2020年1月27日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
87+阅读 · 2019年11月25日
图论、图算法与图学习
专知
29+阅读 · 2019年6月24日
421页《机器学习数学基础》最新2019版PDF下载
448页伊利诺伊大学《算法》图书-附下载
专知
15+阅读 · 2018年12月31日
【泡泡图灵智库】数据高效利用的分布式视觉SLAM(ICRA)
泡泡机器人SLAM
7+阅读 · 2018年11月15日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
Arxiv
14+阅读 · 2019年9月11日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
微信扫码咨询专知VIP会员