这是一本关于高维概率的教材,着眼于数据科学中的应用。适用于数学、统计学、电气工程、计算生物学及相关领域的博士生、高年级硕士生和初级研究人员,他们希望扩展对现代数据科学研究中使用的理论方法的知识。
数据科学发展迅速,而概率方法常常为这些进展提供基础和灵感。典型的研究生概率课程已经不足以达到今天对数据科学初级研究人员所期望的数学复杂程度。本书旨在部分填补这一空白。它介绍了一些可能构成数学数据科学家基本工具箱的关键概率方法和结果。本书可用作面向数据科学应用的概率学第二课程的教材,也适合自学。
高维概率是概率论的一个分支,研究的是维度 n 可能非常大的RnR^nRn 空间中的随机对象。本书特别强调随机向量、随机矩阵和随机投影。它教授这些对象分析的基本理论技能,包括集中不等式、覆盖与打包论证、解耦和对称化技巧、随机过程的链化和比较技术、基于 VC 维度的组合推理等内容。高维概率为数据科学中的应用提供了重要的理论工具。本书将理论与协方差估计、半定规划、网络、统计学习元素、纠错码、聚类、矩阵补全、降维、稀疏信号恢复、稀疏回归等应用相结合。
阅读本书的基本前提是掌握严格的概率论课程(硕士或博士阶段),对本科线性代数有优秀的掌握,并且大致熟悉度量空间、赋范空间、Hilbert 空间和线性算子的基本概念。测度论的知识不是必需的,但会有帮助。
习题被整合到文本中,读者可以立即做这些习题,以检查自己对刚刚介绍的材料的理解,并更好地为后续内容做准备。习题的难度由咖啡杯的数量标示,从最简单的 (K) 到最难的 (KKKK)。
本书仅涵盖了高维概率理论工具的一小部分,并通过一些数据科学应用进行了说明。本书的每一章都有一个“注释”部分,其中包含了其他相关文本的参考。这里特别指出几个特别有用的来源。经典的 [8] 书籍展示了概率方法在离散数学和计算机科学应用中的应用。即将出版的 [20] 书籍展示了数学数据科学的全景,特别关注计算机科学中的应用。这两本书都适合研究生和高级本科生。讲义 [212] 面向研究生,介绍了高维概率的更多理论材料。