124页哈佛数学系本科论文，带你了解流形学习的数学基础

近日，哈佛大学数学系毕业生、现牛津大学博士 Luke Melas-Kyriazi 发布其本科毕业论文，结合统计学习、谱图理论和微分几何三个数学领域介绍流形学习。

流形学习（manifold learning）是机器学习、模式识别中的一种方法，在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维，使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设，即某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。流形学习可以作为一种数据降维的方式。此外，流形能够刻画数据的本质，主要代表方法有等距映射、局部线性嵌入等。

自 2000 年在著名的科学杂志《Science》首次提出以来，流形学习成为机器学习领域中的一个热点。近日，一篇来自哈佛大学数学系的本科毕业论文引起了大家关注。它结合三个看似不太相关的数学领域来介绍流形学习的数学基础，这三个领域分别是：统计学习、谱图理论和微分几何。

该论文结合三个数学领域来介绍流形学习：统计学习、谱图理论和微分几何，并在最后一章中介绍了流形正则化的思想。流形正则化可以学习与数据流形相关的函数，而不是数据所在的外围空间。

要想了解流形学习和流形正则化，我们首先需要了解核学习（kernel learning），以及流形与图之间的关系。

论文第二、三章重点介绍核学习。第二章介绍了监督和半监督学习的基础知识，第三章介绍再生核希尔伯特空间中的监督核学习理论，该理论为大量正则化技术奠定了严谨的数学基础。

第四章通过拉普拉斯算子来探索流形与图之间的关系。乍一看，流形与图似乎区别很大，但拉普拉斯算子揭示了二者之间的对应性。

第五章介绍了流形正则化。该研究发现，使用基于数据所生成图的拉普拉斯算子，可以很容易地将流形正则化添加至多种学习算法。本章证明了这一图方法的理论有效性：在无限数据情况下，数据图的拉普拉斯算子能够收敛至数据流形的拉普拉斯算子。