【导读】本文为大家带来了一份斯坦福大学的最新课程CS246——大数据挖掘Mining Massive Data Sets,主讲人是斯坦福大牛Jure Leskovec,他是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。
本课程将讨论分析大量数据的数据挖掘和机器学习算法。重点是将MapReduce和Spark作为创建并行算法的工具,可以处理非常大量的数据。
主题包括: 频繁项目集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模有监督机器学习,数据流,结构化数据挖掘网络,网络广告。
01:课程介绍和MapReduce and Spark(Introduction; MapReduce and Spark) 02:频繁项集挖掘(Frequent Itemsets Mining) 03:局部敏感哈希(Locality-Sensitive Hashing I) 04:局部敏感哈希(Locality-Sensitive Hashing II) 05:聚类(Clustering) 06:降维 (Dimensionality Reduction) 07:推荐系统(Recommender Systems I) 08:推荐系统(Recommender Systems II) 09:PageRank(PageRank) 10:链接欺诈与社交网络导论(Link Spam and Introduction to Social Networks) 11:社区检测(Community Detection in Graphs) 12:图表示学习(Graph Representation Learning) 13:图神经网络 Graph Neural Networks 14:嵌入学习 Learning Embeddings 15:大规模机器学习(Large-Scale Machine Learning I) 16:数据流挖掘(Mining Data Streams I) 17:计算广告(Computational Advertising) 18:通过实验学习(Learning through Experimentation) 19:优化子模块功能(Optimizing Submodular Functions)