本书介绍了数据科学的数学和算法基础,包括机器学习、高维几何和大型网络的分析。主题包括高维数据的反直觉性质、重要的线性代数技术,如奇异值分解、随机游动和马尔科夫链理论、机器学习的基本原理和重要算法、聚类算法和分析、大型网络的概率模型、表示学习,包括主题建模和非负矩阵分解、小波和压缩感知。本文提出了一种正概率技术,包括大数定律、尾部不等式、随机投影分析、机器学习中的泛化保证以及分析大随机图相变的矩量法。此外,还讨论了重要的结构和复杂性度量,如矩阵范数和vc维。本书适用于设计和分析数据算法的本科和研究生课程。