【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用,710页pdf

2020 年 12 月 9 日 专知
【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用,710页pdf

近日,加州大学伯克利分校电气工程与计算机科学系教授马毅(Yi Ma)宣布其与哥伦比亚大学电气工程系副教授 John Wright 合著的新书《High-Dimensional Data Analysis with Low-Dimensional Models: Principles, Computation, and Applications》开放了draft 版本,共有710页之多。





地址:

https://book-wright-ma.github.io/


本书涵盖了用于高维数据分析的新的数学原理(统计学和几何学习)、可扩展(凸和非凸)优化方法,以及重要的应用,如科学成像、宽带通信、人脸识别、3D视觉和深度网络。这本书将被用作数据科学、信号处理、优化和机器学习领域的研究生入门教科书。它已被用于课程EECS 290(伯克利)和ELEN 6886(哥伦比亚)。


在过去的二十年里,高维空间中低维结构的研究有了巨大的发展。在很大程度上,具有代表性的低维模型(如稀疏和低秩以及它们的变体和扩展)的几何和统计特性现在已经很好地理解了。在何种条件下,这些模型可以有效地和高效地从(最小采样量)数据中恢复,已经清楚地描述了。为了从高维数据中恢复低维模型,已经开发了许多高效和可扩展的算法。对这些算法的工作条件和计算复杂性也进行了详细的描述。这些新理论结果和算法已经彻底改变了科学和信号处理的实践数据, 并对传感、成像和信息处理产生了重要的影响。在科学成像、图像处理、计算机视觉、生物信息学、信息检索和机器学习等领域,我们已取得了显著的技术进步。正如我们将从本书中介绍的应用程序中看到的,其中一些发展似乎违背了传统智慧。


见证了这一历史性的进步,我们认为,现在是全面研究这一新知识体系并在统一的理论和计算框架下组织这些丰富成果的时候了。关于压缩感知和稀疏模型的数学原理,已有许多优秀的书籍。然而,本书的目标是通过真正有效的计算,弥合低维模型在高维数据分析中的原理和应用之间的差距:



本书将为学生提供关于高维几何、统计和优化概念和方法的系统性和严谨的训练。通过多样化丰富的应用设置和编程练习,本书还将教导学生如何在模型真实数据中正确使用这些概念和方法,以及如何解决现实世界的工程与科学问题。


本书结构


这本书的主体包括三个相互关联的部分: 原理、计算和应用(PCA)。本书还对相关的背景知识做了附录。


第一部分: 原理(2-7章)提出了稀疏、低秩和一般低维模型的基本性质和理论结果。它描述了在保证正确性或精度的情况下,恢复这种低维结构的逆问题变得易于处理并且能够有效地解决的条件。


第二部分: 计算(第8章和第9章)介绍了凸和非凸优化的方法,以开发用于恢复低维模型的实用算法。这些方法展示了如何系统地提高算法效率和降低整体计算复杂度,从而使生成的算法快速、可扩展到大尺寸和高维数据的强大思想。


第三部分: 应用(10到16章)演示了如何前面两部分的原理和计算方法可能价格不能提高解决各种现实问题和实践。这些应用还指导如何适当地定制和扩展本书中介绍的理想化的模型和算法,以包含关于应用的其他领域特定知识(先验或约束)。


最后的附录(A-E)在本书的最后是独立使用的。



作者简介


个人主页:https://people.eecs.berkeley.edu/~yima/

马毅(Yi Ma)为加州大学伯克利分校电气工程与计算机科学系教授。他的研究兴趣包括 3D 计算机视觉、高维数据的低维模型、可扩展性优化和机器学习,近来的研究主题包括大规模 3D 几何重构和交互以及低维模型与深度网络的关系。

个人主页:https://datascience.columbia.edu/people/john-wright/

John Wright 现为哥伦比亚大学电气工程系副教授。2009 年 10 月,他取得了伊利诺伊大学香槟分校的电气工程博士学位,2009 年至 2011 年在微软研究院工作。他的研究兴趣在于高维数据分析、信号处理、计算机视觉和优化领域,其与 Wang 和 Spielman 合著的论文《Exact Recovery of Sparsely-Used Dictionaries》获得了 2012 COLT 最佳论文奖。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“低维学习” 就可以获取【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用,710页pdf》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
13

相关内容

矩阵代数是数据分析和统计理论中最重要的数学领域之一。这本书的第一部分为统计中的应用提出矩阵代数的理论的相关方面。本部分从向量和向量空间的基本概念开始,接着介绍矩阵的基本代数性质,然后描述向量和矩阵在多元演算中的解析性质,最后讨论线性系统解和特征分析中矩阵的运算。这部分基本上是独立的。

本书的第二部分开始考虑在统计中遇到的各种类型的矩阵,例如投影矩阵和正定矩阵,并描述这些矩阵的特殊性质。第二部分也介绍了矩阵理论在统计中的一些应用,包括线性模型、多元分析和随机过程。本部分说明了在本书第一部分中发展的矩阵理论。书的前两个部分可以作为为统计学生的矩阵代数课程的文本,或作为在线性模型或多元统计的各种课程的补充文本。

这本书的第三部分涵盖了数值线性代数。它以数值计算的基础讨论开始,然后描述精确和有效的算法因式分解矩阵,求解线性方程组,并提取特征值和特征向量。虽然这本书没有捆绑到任何特定的软件系统,它描述并给出了使用数字线性代数的现代计算机软件的例子。这部分基本上是自包含的,尽管它假设有一些能力用Fortran或C编程和/或使用R/S-Plus或Matlab的能力。书的这一部分可以作为在统计计算中的一门课程的文本使用,或者作为强调计算的各种课程的补充文本。

这本书包括大量的练习,并在附录中提供了一些解决方案。

James E. Gentle是乔治梅森大学计算统计学教授。他是美国统计协会(ASA)和美国科学促进会的会员。他曾在美国标准局担任过几个国家职务并担任过美国标准局期刊的副主编以及其他统计和计算期刊的副主编。他是随机数生成和蒙特卡罗方法,第二版,和计算统计元素的作者。

成为VIP会员查看完整内容
0
80

有很多关于傅里叶变换的书; 然而,很少有面向多学科读者的。为工程师写一本关于代数概念的书是一个真正的挑战,即使不是太难的事,也要比写一本关于理论应用的代数书更有挑战性。这就是本书试图面对的挑战。因此,每个读者都能够创建一个“按菜单”的程序,并从语句或计算机程序中提取特定元素,以建立他们在该领域的知识,或将其运用于更具体的问题。

本文叙述是非常详细的。读者可能偶尔需要一些关于有限组的高级概念,以及对组行为的熟悉程度。我强调了那些重要的定义和符号。例如,从多个角度(交换群、信号处理、非交换群)研究卷积的概念,每次都要放在它的背景知识中。因此,不同的段落,虽然遵循一个逻辑递进,有一个真正的统一,但可以根据自己需要选取阅读。

第一章用群论的语言来解释主要概念,并解释后面将用到的符号。第二章将所得结果应用于各种问题,并首次接触快速算法(例如Walsh 变换)。第三章对离散傅里叶变换进行了阐述。第四章介绍了离散傅里叶变换的各种应用,并构成了对前一章的必要补充,以充分理解所涉及的机制以及在实际情况中使用。第五章围绕傅里叶变换提出了更多新颖的思想和算法,产生了大量的应用。第六章需要一些更高级的知识,特别是对有限场理论的一些熟悉。它研究了有限域中的值变换,并给出了在校正码中的应用。最后两章(最困难的一章),具有更多的代数性质,并建议推广已经在有限非交换群的情况下进行的构造。第七章揭示了线性表示的理论。第八章和最后一章将这一理论应用于理论(群的简洁性研究)和实际(光谱分析)领域。

https://mathematical-tours.github.io/daft/

成为VIP会员查看完整内容
0
61

异步分布式计算系统的模型。基本概念的并发和同步,通信,可靠性,拓扑和电子约束,时间和空间的复杂性,和分布式算法。

成为VIP会员查看完整内容
0
28

《图像处理手册》一直被评为计算机图像处理的最佳整体介绍,涵盖二维(2D)和三维(3D)成像技术、图像打印和存储方法、图像处理算法、图像和特征测量、定量图像测量分析等等。

  • 比以前的版本有更多的计算密集型算法
  • 提供更好的组织,更多的定量结果,和最新发展的新材料
  • 包括在3D成像和在统计分析上彻底修改的一章完全重写的章节
  • 包含超过1700个参考文献的理论,方法,和应用在广泛的学科
  • 呈现了500多个全新的人物和图像,其中超过三分之二是彩色的

《图像处理手册》第七版提供一个可接近的和最新的图像处理的处理,提供广泛的覆盖和算法的比较,方法,和结果。

成为VIP会员查看完整内容
0
109

非凸优化是机器学习中的基础问题,迭代优化方法缺乏理论支撑。普林斯顿大学助理教授Yuxin Chen一直从事非凸优化方面的研究,这份报告讲述了最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。

Yuxin Chen 目前是普林斯顿大学电气工程系的助理教授。在加入普林斯顿大学之前,他是斯坦福大学统计系的博士后学者,并在斯坦福大学完成了电子工程博士学位。他的研究兴趣包括高维统计、凸与非凸优化、统计学习和信息论。他获得了2019年AFOSR青年研究员奖。

http://www.princeton.edu/~yc5/

非凸优化与统计学

近年来,利用非凸优化方法来解决统计估计和学习问题的研究工作层出不穷。由于非凸优化算法易受虚假局部极小值的影响,传统工作通常对其持悲观看法,而简单的迭代方法,如梯度下降法,在实践中已经取得了显著的成功。然而,直到最近,这些理论基础在很大程度上一直缺乏。这个报告展示了两个最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。第一个故事是关于一个相位检索问题的随机初始化非凸方法:即使没有仔细的初始化,像梯度下降这样的简单算法也可以在对数迭代次数内找到全局解。第二个故事是关于非凸低秩矩阵补全的不确定性量化。我们在非凸估计的基础上开发了一个去偏估计器,使未知矩阵缺失项的置信区间能得到最优构造。所有这些都是通过一个“一留一出”的统计分析框架实现的,该框架在处理和解耦复杂的统计依赖方面非常强大。

https://events.seas.upenn.edu/event/priml-seminar-nonconvex-optimization-meets-statistics-a-few-recent-stories/

成为VIP会员查看完整内容
0
69

机器学习是计算机科学中增长最快的领域之一,具有深远的应用。本书的目的是介绍机器学习,以及它所提供的算法范例。本书对机器学习的基本原理和将这些原理转化为实际算法的数学推导提供了理论解释。在介绍了基础知识之后,这本书涵盖了以前教科书没有涉及到的一系列广泛的中心主题。这些包括讨论学习的计算复杂性和凸性和稳定性的概念;重要的算法范例包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念,如PAC-Bayes方法和基于压缩的界限。本文面向高级本科生或刚毕业的学生,使统计学、计算机科学、数学和工程学领域的学生和非专业读者都能接触到机器学习的基本原理和算法。

https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html

概述

机器学习是指自动检测数据中有意义的模式。在过去的几十年里,它已经成为几乎所有需要从大数据集中提取信息的任务的通用工具。我们被一种基于机器学习的技术包围着:搜索引擎学习如何给我们带来最好的结果(同时投放有利可图的广告),反垃圾邮件软件学习如何过滤我们的电子邮件信息,信用卡交易被一种学习如何侦测欺诈的软件保护着。数码相机学会识别人脸,智能手机上的智能个人辅助应用学会识别语音指令。汽车配备了使用机器学习算法构建的事故预防系统。机器学习还广泛应用于生物信息学、医学和天文学等科学领域。

所有这些应用程序的一个共同特征是,与计算机的更传统使用相比,在这些情况下,由于需要检测的模式的复杂性,人类程序员无法提供关于这些任务应该如何执行的明确、详细的规范。以智慧生物为例,我们的许多技能都是通过学习我们的经验(而不是遵循给我们的明确指示)而获得或改进的。机器学习工具关注的是赋予程序“学习”和适应的能力。

这本书的第一个目标是提供一个严格的,但易于遵循,介绍机器学习的主要概念: 什么是机器学习?

本书的第二个目标是介绍几种关键的机器学习算法。我们选择展示的算法一方面在实践中得到了成功应用,另一方面提供了广泛的不同的学习技术。此外,我们特别关注适合大规模学习的算法(又称“大数据”),因为近年来,我们的世界变得越来越“数字化”,可用于学习的数据量也在急剧增加。因此,在许多应用中数据量大,计算时间是主要瓶颈。因此,我们明确地量化了学习给定概念所需的数据量和计算时间。

目录:

  • Introduction

Part I: Foundations

  • A gentle start
  • A formal learning model
  • Learning via uniform convergence
  • The bias-complexity trade-off
  • The VC-dimension
  • Non-uniform learnability
  • The runtime of learning

Part II: From Theory to Algorithms

  • Linear predictors
  • Boosting
  • Model selection and validation
  • Convex learning problems
  • Regularization and stability
  • Stochastic gradient descent
  • Support vector machines
  • Kernel methods
  • Multiclass, ranking, and complex prediction problems
  • Decision trees
  • Nearest neighbor
  • Neural networks

Part III: Additional Learning Models

  • Online learning
  • Clustering
  • Dimensionality reduction
  • Generative models
  • Feature selection and generation

Part IV: Advanced Theory

  • Rademacher complexities
  • Covering numbers
  • Proof of the fundamental theorem of learning theory
  • Multiclass learnability
  • Compression bounds
  • PAC-Bayes

Appendices

  • Technical lemmas
  • Measure concentration
  • Linear algebra
成为VIP会员查看完整内容
0
163

数学与计算为计算复杂性理论提供了一个广泛的、概念性的概述——高效计算的数学研究。计算复杂性理论在计算机科学和工业中有着重要的实际应用,它已经发展成为一个高度跨学科的领域,与大多数数学领域和越来越多的科学研究有着密切的联系。

Avi Wigderson对复杂性理论进行了全面的研究,强调了该领域的洞察力和挑战。他解释了导致关键模型、概念和结果的想法和动机。特别是,他研究了算法和复杂性,计算和证明,随机性和相互作用,量子和算术计算,密码学和学习,所有这些都是一个紧密结合的整体的一部分,有许多相互影响。威格德森阐述了这一领域的广阔,它的美丽和丰富,以及它与数学其他领域的多样化和日益增长的相互作用。最后,他全面介绍了计算理论、计算方法和愿望,以及它在塑造和将进一步塑造科学、技术和社会方面的独特而基本的方式。为进一步阅读,广泛的参考书目提供了所有的主题。

数学与计算对于数学、计算机科学及相关领域的本科生和研究生,以及这些领域的研究人员和教师都很有用。许多部分只需要很少的背景知识,对于那些想要了解计算理论的新手来说,这是一种邀请。

  • 计算复杂性理论的全面覆盖,并超越
  • 高层次,直观的阐述,这带来概念的清晰度,这一中心和动态的科学学科
  • 中心概念和模型的演化和动机的历史记录
  • 概观计算理论对科学、技术和社会的影响
  • 广泛的参考书目

Avi Wigderson是新泽西州普林斯顿高等研究院数学学院的Herbert H. Maass教授。

成为VIP会员查看完整内容
0
58

斯坦福大学Stephen Boyd教授与加州大学Lieven Vandenberghe教授合著的应用线性代数导论:向量、矩阵和最小二乘法《Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares》在2018年由剑桥大学出版社发行,开源书包含19章,473页pdf,这本书的目的是提供一个介绍向量,矩阵,最小二乘方法,应用线性代数的基本主题。目标是让学生通俗易懂,入门学习。让学习者了解在包括数据拟合、机器学习和人工智能,断层、导航、图像处理、金融、和自动控制系统的应用。是一本不可多得好教材。​

Stephen P. Boyd是斯坦福大学电子工程Samsung 教授,信息系统实验室电子工程教授,斯坦福大学电子工程系系主任。他在管理科学与工程系和计算机科学系任职,是计算与数学工程研究所的成员。他目前的研究重点是凸优化在控制、信号处理、机器学习和金融方面的应用。 https://web.stanford.edu/~boyd/

Lieven Vandenberghe,美国加州大学洛杉矶分校电子与计算机工程系和数学系教授

这本书的目的是提供一个介绍向量,矩阵,最小二乘方法,应用线性代数的基本主题。我们的目标是让很少或根本没有接触过线性代数的学生快速学习,以及对如何使用它们在许多应用程序中, 包括数据拟合、机器学习和人工智能, 断层、导航、图像处理、金融、和自动控制系统。

读者所需要的背景知识是熟悉基本的数学符号。我们只在少数地方使用微积分,但它并不是一个关键的角色,也不是一个严格的先决条件。虽然这本书涵盖了许多传统上作为概率和统计的一部分来教授的话题,比如如何将数学模型与数据相匹配,但它并不需要概率和统计方面的知识或背景。

这本书涉及的数学比应用线性代数的典型文本还少。我们只使用线性代数中的一个理论概念,线性无关,和一个计算工具,QR分解;我们处理大多数应用程序的方法只依赖于一种方法,即最小二乘(或某种扩展)。从这个意义上说,我们的目标是知识经济:仅用一些基本的数学思想、概念和方法,我们就涵盖了许多应用。然而,我们所提供的数学是完整的,因为我们仔细地证明了每一个数学命题。然而,与大多数介绍性的线性代数文本不同,我们描述了许多应用程序,包括一些通常被认为是高级主题的应用程序,如文档分类、控制、状态估计和组合优化。

这本书分为三部分。第一部分向读者介绍向量,以及各种向量运算和函数,如加法、内积、距离和角度。我们还将描述如何在应用程序中使用向量来表示文档中的字数、时间序列、病人的属性、产品的销售、音轨、图像或投资组合。第二部分对矩阵也做了同样的处理,最终以矩阵的逆和求解线性方程的方法结束。第三部分,关于最小二乘,是回报,至少在应用方面。我们展示了近似求解一组超定方程的简单而自然的思想,以及对这一基本思想的一些扩展,可以用来解决许多实际问题。

成为VIP会员查看完整内容
0
172

简介: 宾夕法尼亚大学计算逻辑研究院Jean Gallier等人近期在之前发布的书的基础上进行修改,于2019年10月24日发布了一本长达753页的书籍,详细地列出了对机器学习等领域有重要意义的数学理论基础知识。近年来,计算机视觉、机器人、机器学习和数据科学一直是推动技术重大进步的一些关键领域。任何看过上述领域的论文或书籍的人都会被一个奇怪的术语所困扰,这些术语涉及核主成分分析、岭回归、lasso回归、支持向量机(SVM)、拉格朗日乘子、KKT条件等奇怪的术语。但人们很快就会发现,行话背后总是伴随着一个新的领域,背后隐藏着许多经典的“线性代数和优化理论技术”。我们面临的主要挑战是:要从机器学习、计算机视觉等方面了解和使用工具,必须具备线性代数和优化理论的坚实背景。

本书的主要目标是介绍线性代数和优化理论的基本原理,同时考虑到机器学习、机器人和计算机视觉的应用。这项工作由两部分组成,第一个是线性代数,第二个优化理论和应用,尤其是机器学习。 第一部分涉及经典的线性代数,包括主分解和Jordan形式。除了讨论标准的一些主题外,我们还讨论了一些对应用很重要的主题。这些主题包括:

  • Haar基和相应的Haar小波
  • Hadamard矩阵
  • Affine maps
  • 规范和矩阵规范
  • 向量空间中序列和序列的收敛性。矩阵指数e_A及其基本性质
  • The group of unit quaternions, SU(2), and the representation of rotations in SO(3) by unit quaternions
  • 代数与谱图论简介
  • SVD和伪逆的应用,尤其是主成分分析
  • 特征值和特征向量的计算方法,重点是QR算法

另外有比平常更详细介绍的四个主题:

  • Duality
  • Dual norms
  • The geometry of the orthogonal groups O(n) and SO(n), and of the unitary groups U(n) and SU(n)
  • 谱理论

作者介绍: Jean Gallier是宾夕法尼亚大学的教授,拥有法国和美国双国籍,1978年取得博士后学位就从事于计算机领域工作,发表过许多研究论文和书籍,其中《Computational geometry》、《Low-dimensional topology》、《Discrete mathematics》、《Discrete mathematics》等书籍的作者就是Jean Gallier

成为VIP会员查看完整内容
面向计算机视觉、机器人和机器学习的线性代数.pdf
0
105
小贴士
相关论文
Towards Practical Lipreading with Distilled and Efficient Models
Pingchuan Ma,Brais Martinez,Stavros Petridis,Maja Pantic
0+阅读 · 2月12日
Timm Haucke,Volker Steinhage
0+阅读 · 2月10日
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization
Junjie Hu,Sebastian Ruder,Aditya Siddhant,Graham Neubig,Orhan Firat,Melvin Johnson
3+阅读 · 2020年3月24日
Talking-Heads Attention
Noam Shazeer,Zhenzhong Lan,Youlong Cheng,Nan Ding,Le Hou
12+阅读 · 2020年3月5日
Wenwu Zhu,Xin Wang,Peng Cui
19+阅读 · 2020年1月2日
Self-labelling via simultaneous clustering and representation learning
Yuki Markus Asano,Christian Rupprecht,Andrea Vedaldi
3+阅读 · 2019年11月13日
Contrastive Representation Distillation
Yonglong Tian,Dilip Krishnan,Phillip Isola
4+阅读 · 2019年10月23日
Alexander Kuhnle,Ann Copestake
3+阅读 · 2018年5月12日
Matthew Kennedy,Nicholas A. Manor,Vern I. Paulsen
4+阅读 · 2017年12月7日
Top