【导读】大数据的爆发式增长,催生了对高维数据分析的需求。围绕高维机器学习,有三部经典书籍包括加州大学欧文分校Roman Vershynin教授的《高维概率论》、伯克利Martin Wainwright教授《高维统计学》、哥伦比亚大学John Wright教授与伯克利马毅教授《高维数据分析》,非常值得收藏!
《高维概率》提供了对随机向量、随机矩阵、随机子空间和用于量化高维不确定性的对象的行为的洞察。借鉴了概率、分析和几何的思想,它适用于数学、统计学、理论计算机科学、信号处理、优化等领域。它是第一个将高维概率的理论、关键工具和现代应用集成起来的。集中不等式是其核心,它涵盖了Hoeffding和Chernoff等经典不等式和Bernstein等现代发展。然后介绍了基于随机过程的强大方法,包括Slepian的、Sudakov的和Dudley的不等式,以及基于VC维的泛链和界。整本书包含了大量的插图,包括经典和现代的协方差估计、聚类、网络、半定规划、编码、降维、矩阵补全、机器学习、压缩感知和稀疏回归等结果。
这是一本教科书在高维概率与数据科学的应用展望。它是为博士和高级硕士学生和数学,统计,电子工程,计算机科学,计算生物学和相关领域的初级研究人员,谁正在寻求扩大他们的理论方法在现代研究数据科学的知识。
近年来,在所有科学学科和工业环境中收集的数据的数量和种类都出现了爆炸式增长。如此庞大的数据集给统计学和机器学习领域的研究人员带来了许多挑战。这本书提供了高维统计领域的一个独立的介绍,旨在第一年的研究生水平。它包括章节集中在核心方法和理论-包括尾界,集中不等式,统一定律和经验过程,和随机矩阵-以及章节致力于深入探索特定的模型类-包括稀疏线性模型,矩阵模型与秩约束,图形模型,以及各种各样的非参数模型。与数以百计的工作示例和练习,这篇文章旨在为课程和自学的研究生和研究人员在统计,机器学习,和相关领域,进行理解,应用,并适应适合大规模数据的现代统计方法。
地址:
https://book-wright-ma.github.io/
本书涵盖了用于高维数据分析的新的数学原理(统计和几何)、可扩展(凸和非凸)优化方法,以及重要的应用,如科学成像、宽带通信、人脸识别、3D视觉和深度网络。这本书将被用作数据科学、信号处理、优化和机器学习领域的研究生入门教科书。它已被用于课程EECS 290(伯克利)和ELEN 6886(哥伦比亚)。 在过去的二十年里,高维空间中低维结构的研究有了巨大的发展。在很大程度上,具有代表性的低维模型(如稀疏和低秩以及它们的变体和扩展)的几何和统计特性现在已经很好地理解了。在何种条件下,这些模型可以有效地和高效地从(最小采样量)数据中恢复,已经清楚地描述了。为了从高维数据中恢复低维模型,已经开发了许多高效和可扩展的算法。对这些算法的工作条件和计算复杂性也进行了详细的描述。这些新理论结果和算法已经彻底改变了科学和信号处理的实践数据, 并对传感、成像和信息处理产生了重要的影响。在科学成像、图像处理、计算机视觉、生物信息学、信息检索和机器学习等领域,我们已取得了显著的技术进步。正如我们将从本书中介绍的应用程序中看到的,其中一些发展似乎违背了传统智慧。 见证了这一历史性的进步,我们认为,现在是全面研究这一新知识体系并在统一的理论和计算框架下组织这些丰富成果的时候了。关于压缩感知和稀疏模型的数学原理,已有许多优秀的书籍。然而,本书的目标是通过真正有效的计算,弥合低维模型在高维数据分析中的原理和应用之间的差距: 本书结构
这本书的主体包括三个相互关联的部分: 原理、计算和应用(PCA)。本书还对相关的背景知识做了附录。
第一部分: 原理(2-7章)提出了稀疏、低秩和一般低维模型的基本性质和理论结果。它描述了在保证正确性或精度的情况下,恢复这种低维结构的逆问题变得易于处理并且能够有效地解决的条件。
第二部分: 计算(第8章和第9章)介绍了凸和非凸优化的方法,以开发用于恢复低维模型的实用算法。这些方法展示了如何系统地提高算法效率和降低整体计算复杂度,从而使生成的算法快速、可扩展到大尺寸和高维数据的强大思想。
第三部分: 应用(10到16章)演示了如何前面两部分的原理和计算方法可能价格不能提高解决各种现实问题和实践。这些应用还指导如何适当地定制和扩展本书中介绍的理想化的模型和算法,以包含关于应用的其他领域特定知识(先验或约束)。
最后的附录(A-E)在书的最后是为了使这本书很大程度上是独立的。