UC伯克利马毅七年力作！700页新书探究低维模型与高维数据分析

2020 年 12 月 9 日 AI科技评论

作者 | 陈大鑫

昨日凌晨，加州伯克利电气工程与计算机科学系马毅（Yi Ma）教授宣布其与哥大电气工程系副教授John Wright合著的新书《High-Dimensional Data Analysis with Low-Dimensional Models: Principles, Computation, and Applications》开放了预印版，在新书正式出版前，大家可以在线下载抢先阅读了！

马毅教授随后表示道，这本书是他与合著者 John Wright前后写了七年、最后在疫情期间夜以继日才得以完成的心血之作。此外，最近两年为了知识的完整性，他们还完成了一些填补空白的科研，包括与深度模型的紧密联系，这本书算是2020年末给大家的一份礼物。

此外，马毅教授还表示，这本书总体上算得上一个承前继后的 proposal，包括数据科学、机器学习从哪里来以及该往哪里去。

最后，马毅教授也希望这本书能给这个看似越来越杂乱无序的学术领域乃至世界恢复那么一点理智、标准和品位。

本书将用作数据科学、信号处理、优化和机器学习领域的入门级研究生教材，它已经被用于 EECS 290（加州大学伯克利分校）和 ELEN 6886（哥伦比亚大学）两门课程。

这也是马毅教授完成的第三本教材，前两本如下：

1、《Generalized Principal Component Analysis》、

2、《An Invitation to 3-D Vision: From Images to Geometric Models》

作者简介

马毅（Yi Ma），加州大学伯克利分校电气工程与计算机科学系教授。他的研究兴趣包括 3D 计算机视觉、高维数据的低维模型、可扩展性优化和机器学习，近年来的研究主题包括大规模 3D 几何重构和交互以及低维模型与深度网络的关系。

个人主页：https://people.eecs.berkeley.edu/~yima/

John Wright ，哥伦比亚大学电气工程系副教授。博士毕业于伊利诺伊大学香槟分校电气工程专业，曾年在微软研究院工作两年。他的研究兴趣在于高维数据分析、信号处理、计算机视觉和优化领域，曾获2012 COLT 最佳论文奖。

个人主页：https://datascience.columbia.edu/people/john-wright/

书籍介绍

在过去的二十年里，我们的世界已经进入了“大数据”时代，信息技术产业正面临着每天处理和分析海量数据的挑战和机遇。数据存量已经达到了前所未有的规模，而且还在以前所未有的速度增长。

例如，在技术方面，消费级数码相机的分辨率在过去的十年里增加了近十倍。每天有超过3亿张照片被上传到Facebook上；Youtube上每分钟有1300个小时的视频被上传；有超过2000万个娱乐短视频被制作并发布到TikTok上。

在商业领域，阿里巴巴在繁忙的一天里需要接受超过8亿的订单，要处理超过1500万件产品、超过10亿的付款、交付超过3000万件包裹。

目前这些数字还在增长，而且还在快速增长！在科学方面，在过去的几十年里，超分辨率显微成像技术已经取得了巨大的进步，现在有些技术已经能够产生大量的亚原子分辨率的图像。

在3个小时内，一个编码3亿个基因的基因序列的技术可以在3个小时内完成！

然而实践者主要需要处理诸如去除噪音或压缩数据以进行存储或传输等问题。如上所述，互联网、智能手机、高通量成像和基因测序等技术已经从根本上改变了数据采集和分析的性质。我们正从“数据贫乏”时代进入“数据丰富”时代。正如Jim Gray（图灵奖获得者）所指出的，“越来越多的科学突破将由先进的计算能力来推动，这些能力可以帮助研究人员操纵和探索大量的数据集。”这通常被称为科学发现的第四种范式。

但是，数据丰富并不一定意味着“信息丰富”，至少不是免费的。我们正在收集大量数据，有时事先没有任何特定目的。科学家或工程师通常不再直接控制数据采集过程。因此，任何给定的新任务都可能被大量无关或冗余的数据淹没。

为了直观地了解为什么会出现这种情况，让我们首先考虑一下人脸识别问题：

对于人眼来说，上面两张图像都能很好地传达人物的身份，即使第二个图像的像素仅为第一个图像的1/100。

换言之，如果我们将两幅图像视为矢量，其像素值为坐标，那么低分辨率图像矢量的维数仅为原始图像矢量的1/100。显然，关于一个人身份的信息依赖于比原始高分辨率图像低得多的统计数据。这就是本书要探讨的高维空间中低维结构的研究。

在高维空间中识别信号或数据的低维结构问题是一个最基本的问题，它贯穿了系统理论、信号处理、模式识别、机器学习和统计学等许多工程和数学领域。

现实世界中信号或数据的低维性通常是由数据产生的内在物理机制引起的。许多真实世界中的信号或数据都是由某些生成机制控制的物理过程的观察结果。例如，磁共振（MR）是通过操纵服从麦克斯韦方程组的磁场而产生的；任何机械系统（如汽车和机器人）的动力学都遵循牛顿运动定律。

从数学上讲，这种动力学通常可以用一组微分方程来建模，在系统理论中也称为状态空间模型。

当然，许多其他因素可能归因于现实世界数据中普遍存在的低维结构，这些结构不一定涉及自然动力学或序列顺序。另一个原因是，由于人类的影响，大量的程序都是由低维代码建立的。

而近二十年来，高维空间中低维结构的研究取得了爆炸性的发展。在很大程度上，具有代表性的低维模型（如稀疏和低秩及其变体和扩展）的几何和统计特性已经得到了很好的理解。这些模型在何种条件下可以有效地从（最小采样量）数据中恢复，已经得到了明确的描述。为了从高维数据中恢复这种低维模型，已经开发了许多高效和可扩展的算法。

这些算法的工作条件和计算复杂性也得到了充分的描述。这些新的理论成果和算法彻底改变了数据科学和信号处理的实践，并对传感、成像和信息处理产生了重大影响。在科学想象、图像处理、计算机视觉、生物信息学、信息检索和机器学习等领域，它们显著提高了许多应用领域的技术水平。正如我们将从本书中介绍的应用程序中看到的，其中一些开发似乎违背了传统的智慧。

作为这些历史进步的见证者，我们认为现在时机已经成熟，可以对这一新的知识体系进行全面的综述，并在统一的理论和计算框架下组织这些丰富的成果。

关于这一主题，有许多优秀的现有书籍已经集中在压缩感知和稀疏模型的数学原理上。然而，本书的目标是通过真正有效的计算，弥合用于高维数据分析的低维模型的原理和应用之间的差距：

因此，这本书不仅建立了建模低维结构的数学原理并解释了何时可以恢复它们，而且还展示了如何利用经典和最新的优化发展来系统地开发可证明有效和可扩展的算法来解决恢复问题。

此外，通过丰富的科学技术应用范例的收集，本书旨在进一步指导读者和学生如何融入额外的领域和具体问题的知识，以便正确地应用这些新的原则和方法成功地建模和解决现实世界的问题。尽管本书中的应用不可避免地会受到作者在实践这些一般原则和方法方面的专业知识和经验的影响，但本书的内容是经过精心挑选的，以传达我们所学到的各种各样的、互补的经验教训（通常是以艰难的方式）。

我们相信这些经验教训对理论工作者和实践工作者都有很大的价值。

目标受众与组织结构

目标受众

在许多方面，本书所涵盖的知识体系对数据科学领域的年轻研究人员和学生具有很大的教学价值。通过严格的数学发展，我们希望我们的读者能够获得关于高维几何和统计学的新知识和见解，远远超过经典信号处理和数据分析中已经建立的知识和见解。

对于现代工程中广泛应用的可归纳和深入的算法，这些方法对于解决复杂的低维网络问题具有重要的意义。因此，本书旨在成为课程教科书，介绍从高维数据中感知、处理、分析和学习低维结构的基本数学和计算原理。

本书的目标核心读者是电子工程和计算机科学（EECS）的初级研究生，特别是在数据科学、信号处理、优化、机器学习及其应用领域。

本书涵盖了系统的和严格的训练概念和方法的高维几何、统计和优化。本书包含一整套非常多样化和丰富的应用程序和（编程）练习，本书还指导学生如何正确使用这些概念和方法来建模真实世界的数据，解决现实世界的工程和科学问题。

本书对老师和学生都是阅读友好的。本书提供了大量的插图、例子、练习和程序，学生可以从中获得实践经验的概念和方法在书中。

本书中的材料是从伊利诺伊大学香槟分校、哥伦比亚大学、上海理工大学、清华大学和加州大学伯克利分校在过去十年里开设的几个一学期的研究生课程或暑期课程发展而来的。

组织结构

本书主要包含三方面的主题内容：原理、计算、应用（PCA）。

第一部分：原理（第2-7章）

这部分包含了稀疏、低阶和通用低维模型的基本性质和理论结果。它描述了恢复这种低维结构的反问题变得易于处理并能有效地解决的条件，并且保证了正确性或准确性。

第二部分：计算（第8章和第9章）

这部分介绍了凸优化和非凸优化的方法，以用以发展实用算法专门用于恢复低维模型。这些方法为如何系统地提高算法效率和降低整体计算复杂度提供了强有力的思路，从而使算法可以快速、可扩展的到大尺寸、高维数据。

第三部分：应用（第10-16章）

这部分展示了前两部分中的原理和计算方法如何显著改进对各种现实世界问题和实践的解决方案。这些应用案例还指导了如何正确定制和扩展本书中介绍的理想化模型和算法，以纳入有关应用案例的其他领域特定知识（优先或约束）。

本书行文组织结构：

书籍目录：

点击阅读原文，直达NeurIPS小组！

由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道，请将“AI科技评论”设为星标账号，以及常点文末右下角的“在看”。

登录查看更多

相关内容

马毅

关注 0

1995年获得中国清华大学自动化与应用数学博士学位，并获得硕士学位。 1997年获得EECS学位，2000年获得数学硕士学位。于2000年从UC Berkeley获得EECS学位。从2000年至2011年，他在伊利诺伊大学厄本那香槟分校的ECE系任教。从2009年至2013年，他是视觉计算小组的经理和微软研究院在亚洲的首席研究员。 2014年至2017年担任上海科技大学信息科学与技术学院教授和执行院长。他于2018年加入加州大学伯克利分校EECS系。

【硬核书】矩阵代数:统计学的理论、计算和应用，664页pdf

专知会员服务

180+阅读 · 2021年1月30日

【2020新书】Python文本分析，104页pdf

专知会员服务

100+阅读 · 2020年12月23日