【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》 - 专知VIP

会员服务 ·

12

海量数据挖掘 · 斯坦福大学 (Stanford University) ·

2020 年 3 月 30 日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

这本书由数据库和网络技术的权威撰写，对学生和实践者都是必不可少的读本。Web和Internet商务的普及提供了许多非常大的数据集，可以通过数据挖掘从中收集信息。这本书集中在实用的算法，已被用来解决关键问题的数据挖掘，并可以成功地应用到即使是最大的数据集。它首先讨论MapReduce框架，这是自动并行化算法的一个重要工具。作者解释了对位置敏感的哈希和流处理算法的技巧，这些算法用于挖掘到达速度过快而无法进行详尽处理的数据。其他章节介绍了PageRank的思想和组织Web的相关技巧，发现频繁项目集和集群的问题。这第三版包括新的和扩展的覆盖决策树，深度学习，和挖掘社会网络图。

分布式文件系统和map-reduce作为创建并行算法的工具，可以成功地处理大量数据。
相似度搜索，包括minhashing和localitysensitive hashing的关键技术。3.数据流处理和专门的算法，用于处理快速到达的数据，这些数据必须立即处理，否则就会丢失。
搜索引擎的技术，包括谷歌的PageRank，链接垃圾邮件检测，以及中心和权威的方法。
频繁项集挖掘，包括关联规则、市场篮子、a -先验算法及其改进。
算法聚类非常大，高维数据集。
Web应用程序的两个关键问题:管理广告和推荐系统。
用于分析和挖掘非常大的图的结构的算法，特别是社会网络图。
通过降维获得大数据集重要属性的技术，包括奇值分解和潜在语义索引。
机器学习算法，可以应用于非常大的数据，如感知机，支持向量机，梯度下降，和决策树。
神经网络和深度学习，包括最重要的特殊情况:卷积和递归神经网络，以及长短时记忆网络。

成为VIP会员查看完整内容

Mining of Massive Datasets.pdf

81

相关内容

海量数据挖掘

海量数据挖掘

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【经典书】机器学习高斯过程，266页pdf

【经典书】机器学习高斯过程，266页pdf

专知会员服务

235+阅读 · 2020年5月2日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日

【2020新书】Python大数据处理，Mastering Large Datasets with Python

【2020新书】Python大数据处理，Mastering Large Datasets with Python

专知会员服务

54+阅读 · 2020年2月2日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

197+阅读 · 2020年2月1日

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

专知会员服务

46+阅读 · 2019年12月2日

【CIKM2019 Tutorial】Recommendation for Multi-Stakeholders and through Neural Review Mining，附158页PDF免费下载

【CIKM2019 Tutorial】Recommendation for Multi-Stakeholders and through Neural Review Mining，附158页PDF免费下载

专知会员服务

21+阅读 · 2019年11月3日

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

专知会员服务

137+阅读 · 2019年10月30日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

专知

41+阅读 · 2019年12月15日

【资源】元学习相关资源汇总

【资源】元学习相关资源汇总

专知

31+阅读 · 2019年7月10日

最新版本开源情报工具和资源手册（一）

最新版本开源情报工具和资源手册（一）

黑白之道

10+阅读 · 2019年6月23日

秘籍 | 机器学习数据集网址大全

秘籍 | 机器学习数据集网址大全

AI100

7+阅读 · 2019年1月27日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

Dataset Search | 数据集搜索专用引擎

Dataset Search | 数据集搜索专用引擎

机器学习算法与Python学习

9+阅读 · 2018年9月7日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

数据科学浅谈

7+阅读 · 2017年7月29日

推荐几本学习自然语言处理相关的书籍

推荐几本学习自然语言处理相关的书籍

AINLP

7+阅读 · 2016年10月12日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

Arxiv

11+阅读 · 2018年12月6日

Multitask Learning on Graph Neural Networks - Learning Multiple Graph Centrality Measures with a Unified Network

Arxiv

4+阅读 · 2018年9月11日

Neural Network Interpretation via Fine Grained Textual Summarization

Arxiv

6+阅读 · 2018年5月23日

Billion-scale Network Embedding with Iterative Random Projection

Arxiv

5+阅读 · 2018年5月7日

Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Arxiv

6+阅读 · 2018年3月8日

The Search Problem in Mixture Models

Arxiv

3+阅读 · 2018年2月24日

Improved Image Segmentation via Cost Minimization of Multiple Hypotheses

Arxiv

14+阅读 · 2018年1月31日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

VIP会员

相关主题

海量数据挖掘

斯坦福大学 (Stanford University)

相关VIP内容

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【经典书】机器学习高斯过程，266页pdf

【经典书】机器学习高斯过程，266页pdf

专知会员服务

235+阅读 · 2020年5月2日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日

【2020新书】Python大数据处理，Mastering Large Datasets with Python

【2020新书】Python大数据处理，Mastering Large Datasets with Python

专知会员服务

54+阅读 · 2020年2月2日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

197+阅读 · 2020年2月1日

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

【课程推荐】斯坦福课程：信息检索与网络搜索《CS 276: Information Retrieval and Web Search(Spring quarter 2019)》by Chris Manning, Pandu Nayak

专知会员服务

46+阅读 · 2019年12月2日

【CIKM2019 Tutorial】Recommendation for Multi-Stakeholders and through Neural Review Mining，附158页PDF免费下载

【CIKM2019 Tutorial】Recommendation for Multi-Stakeholders and through Neural Review Mining，附158页PDF免费下载

专知会员服务

21+阅读 · 2019年11月3日

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

专知会员服务

137+阅读 · 2019年10月30日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

《理解城市战及其在俄乌战争中的表现》报告

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

《建设式兵棋模拟作为战术集群配置优化的关键组成部分》

相关资讯

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

专知

41+阅读 · 2019年12月15日

【资源】元学习相关资源汇总

【资源】元学习相关资源汇总

专知

31+阅读 · 2019年7月10日

最新版本开源情报工具和资源手册（一）

最新版本开源情报工具和资源手册（一）

黑白之道

10+阅读 · 2019年6月23日

秘籍 | 机器学习数据集网址大全

秘籍 | 机器学习数据集网址大全

AI100

7+阅读 · 2019年1月27日

R语言数据挖掘利器：Rattle包

R语言数据挖掘利器：Rattle包

R语言中文社区

21+阅读 · 2018年11月17日

Dataset Search | 数据集搜索专用引擎

Dataset Search | 数据集搜索专用引擎

机器学习算法与Python学习

9+阅读 · 2018年9月7日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

33款可用来抓数据的开源爬虫软件工具 (推荐收藏)

数据科学浅谈

7+阅读 · 2017年7月29日

推荐几本学习自然语言处理相关的书籍

推荐几本学习自然语言处理相关的书籍

AINLP

7+阅读 · 2016年10月12日

相关论文

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

Arxiv

11+阅读 · 2018年12月6日

Multitask Learning on Graph Neural Networks - Learning Multiple Graph Centrality Measures with a Unified Network

Arxiv

4+阅读 · 2018年9月11日

Neural Network Interpretation via Fine Grained Textual Summarization

Arxiv

6+阅读 · 2018年5月23日

Billion-scale Network Embedding with Iterative Random Projection

Arxiv

5+阅读 · 2018年5月7日

Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Arxiv

6+阅读 · 2018年3月8日

The Search Problem in Mixture Models

Arxiv

3+阅读 · 2018年2月24日

Improved Image Segmentation via Cost Minimization of Multiple Hypotheses

Arxiv

14+阅读 · 2018年1月31日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

微信扫码咨询专知VIP会员