随着大数据、深度学习在学术界和工业界的普及,人们越来越认识到数据对于科研和应用的重要性。虽然现在相关的工具和框架大大降低了构建数据应用的门槛,数据科学基础对应用的构建依然起着核心的作用。本文介绍微软研究院新版书籍《数据科学基础》。
这本书介绍了数据科学的数学和算法基础,包括机器学习,高维几何,和大型网络的分析。主题包括高维数据的反直觉性质,重要的线性代数技术,如奇异值分解,随机漫步和马尔科夫链理论,机器学习的基本原理和重要算法,聚类算法和分析,大型网络的概率模型,表示学习包括主题建模和非负矩阵分解、小波和压缩感知。发展了重要的概率技术,包括大数定律、尾不等式、随机投影分析、机器学习中的泛化保证,以及用于分析大型随机图中的相变的矩方法。此外,还讨论了矩阵规范和vc维等重要的结构和复杂性度量指标。这本书适合本科和研究生课程的设计和分析算法的数据。