数据挖掘和机器学习的基本算法构成了数据科学的基础,利用自动化方法分析各种数据的模式和模型,应用范围从科学发现到商业分析。本教材面向本科和研究生课程,全面深入地介绍了数据挖掘、机器学习和统计学,为学生、研究人员和实践者提供了坚实的指导。这本书奠定了数据分析、模式挖掘、聚类、分类和回归的基础,集中在算法和潜在的代数、几何和概率概念上。新的第二版是一个完整的部分致力于回归方法,包括神经网络和深度学习。
涵盖核心方法和前沿研究,包括深度学习
提供了一种基于开源实现的算法方法
包含了经过类测试的例子和练习,允许课程设计的灵活性和现成的参考
数据挖掘和机器学习使人能够从数据中获得基本的见解和知识。它们允许发现深刻的、有趣的和新颖的模式,以及从大规模数据中描述的、可理解的和可预测的模型。在这个领域有几本好书,但其中很多不是太高级就是太高级。这本书是一个介绍性的文本,奠定了机器学习和数据挖掘的基本概念和算法的基础。重要的概念在第一次遇到时就会被解释,并附有详细的步骤和推导。本书的主要目标是通过对数据和方法的几何、(线性)代数和概率解释的相互作用,建立公式背后的直觉。这第二版在回归上增加了一个完整的新部分,包括线性和逻辑回归,神经网络,和深度学习。其他章节的内容也进行了更新,已知的勘误表也得到了修正。本书的主要部分包括数据分析基础、频繁模式挖掘、聚类、分类和回归。这些课程涵盖了核心方法以及尖端主题,如深度学习、核方法、高维数据分析和图分析。
深度学习,核方法,高维数据分析,图分析。这本书包括许多例子来说明概念和算法。它也有结束语练习,在课堂上使用过。书中所有的算法都是由作者实现的。为了帮助实际理解,我们建议读者自己实现这些算法(例如,使用Python或R)。如幻灯片、数据集和视频等补充资源可以在该书的同伴站点在线获得:
目录内容: Front Matter Contents Preface
PART I. DATA ANALYSIS FOUNDATIONS
1 Data Mining and Analysis 2 Numeric Attributes 3 Categorical Attributes 4 Graph Data 5 Kernel Methods 6 High-dimensional Data 7 Dimensionality Reduction
PART II. FREQUENT PATTERN MINING
8 Itemset Mining 9 Summarizing Itemsets 10 Sequence Mining 11 Graph Pattern Mining 12 Pattern and Rule Assessment
PART III. CLUSTERING
13 Representative-based Clustering 14 Hierarchical Clustering 15 Density-based Clustering 16 Spectral and Graph Clustering 17 Clustering Validation PART IV. CLASSIFICATION
18 Probabilistic Classification 19 Decision Tree Classifier 20 Linear Discriminant Analysis 21 Support Vector Machines 22 Classification Assessment
PART V. REGRESSION
23 Linear Regression 24 Logistic Regression 25 Neural Networks 26 Deep Learning 27 Regression Evaluation
Index
图片