124页哈佛数学系本科论文,带你了解流形学习的数学基础

2020 年 11 月 27 日 机器之心

机器之心报道

编辑:魔王
近日,哈佛大学数学系毕业生、现牛津大学博士 Luke Melas-Kyriazi 发布其本科毕业论文,结合统计学习、谱图理论和微分几何三个数学领域介绍流形学习。

流形学习(manifold learning)是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。流形学习可以作为一种数据降维的方式。此外,流形能够刻画数据的本质,主要代表方法有等距映射、局部线性嵌入等。

自 2000 年在著名的科学杂志《Science》首次提出以来,流形学习成为机器学习领域中的一个热点。近日,一篇来自哈佛大学数学系的本科毕业论文引起了大家关注。它结合三个看似不太相关的数学领域来介绍流形学习的数学基础,这三个领域分别是: 统计学习、谱图理论和微分几何


论文链接:https://arxiv.org/pdf/2011.01307.pdf

什么是流形学习?

要想从数据中学习,我们首先要假设数据具备某种内在结构。在一些机器学习方法中,该假设是隐式的。而流形学习领域中该假设是显式的,它假设观察到的数据是嵌入在高维空间中的低维流形。直观来看,这一假设(又叫流形假设)认为数据的形态是相对简单的。

以自然图像的空间为例。图像是以像素形式存储的,因此图像空间在像素空间 R^H×W×3 内。但是,我们希望自然图像空间的维度比像素空间低一些,像素空间某种程度上几乎被看起来像「噪声」的图像塞满了。此外,我们可以看到自然图像空间是非线性的,因为两个自然图像的(像素级)平均并非自然图像。流形假设认为,自然图像空间具备低维流形嵌入在高维像素空间中的微分几何结构。

应当强调的是,流形学习不是监督学习、无监督学习那样的学习类型,这些学习类型指的是学习任务(是否具备标注数据),而流形学习指的是一组基于流形假设的方法。流形学习方法多在半监督和无监督学习设置下使用,不过也可以用在监督学习环境中。

论文内容概览

该论文结合三个数学领域来介绍流形学习:统计学习、谱图理论和微分几何,并在最后一章中介绍了 流形正则化 的思想。流形正则化可以学习与数据流形相关的函数,而不是数据所在的外围空间。

要想了解流形学习和流形正则化,我们首先需要了解 核学习 (kernel learning),以及流形与图之间的关系。

论文第二、三章重点介绍核学习。第二章介绍了监督和半监督学习的基础知识,第三章介绍再生核希尔伯特空间中的监督核学习理论,该理论为大量正则化技术奠定了严谨的数学基础。

第四章通过 拉普拉斯算子 来探索流形与图之间的关系。乍一看,流形与图似乎区别很大,但拉普拉斯算子揭示了二者之间的对应性。

第五章介绍了流形正则化。该研究发现,使用基于数据所生成图的拉普拉斯算子,可以很容易地将流形正则化添加至多种学习算法。本章证明了这一图方法的理论有效性:在无限数据情况下,数据图的拉普拉斯算子能够收敛至数据流形的拉普拉斯算子。

论文目录如下:


作者简介


这篇论文的作者 Luke Melas-Kyriazi 今年五月毕业于哈佛大学数学系,现在牛津大学读博。他对机器学习和计算机视觉感兴趣,目前的研究重点是半监督和多模态学习。

个人主页:https://lukemelas.github.io/
GitHub 主页:https://github.com/lukemelas


2020 NeurIPS MeetUp

12月6日北京,机器之心将举办2020 NeurIPS MeetUp。活动设置4个Keynote、 12篇论文报告与30个Poster,邀请顶级专家、论文作者与现场参会观众共同交流。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

流形学习,全称流形学习方法(Manifold Learning),自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
【2021新书】概率论介绍,395页pdf
专知会员服务
73+阅读 · 2021年1月17日
如何学好数学?这有一份2021《数学学习路线图》请看下
专知会员服务
77+阅读 · 2020年12月6日
近期必读的七篇 ICLR 2021【因果推理】相关投稿论文
专知会员服务
68+阅读 · 2020年10月6日
【经典书】概率统计导论第五版,730页pdf
专知会员服务
238+阅读 · 2020年7月28日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
最新《机器学习理论初探》概述
专知会员服务
46+阅读 · 2020年5月19日
博客 | MIT—线性代数(下)
AI研习社
6+阅读 · 2018年12月20日
入门 | 一文介绍机器学习中基本的数学符号
机器之心
28+阅读 · 2018年4月9日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
学习人工智能需要哪些必备的数学基础?
数学不好能搞人工智能吗?
算法与数学之美
3+阅读 · 2017年11月27日
GAN的数学原理
算法与数学之美
14+阅读 · 2017年9月2日
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
大学数学不好,或许是数学教材的锅?
算法与数学之美
15+阅读 · 2017年8月1日
Arxiv
0+阅读 · 2021年2月8日
Arxiv
0+阅读 · 2021年2月5日
Arxiv
0+阅读 · 2021年2月5日
Arxiv
4+阅读 · 2018年7月4日
VIP会员
相关VIP内容
【2021新书】概率论介绍,395页pdf
专知会员服务
73+阅读 · 2021年1月17日
如何学好数学?这有一份2021《数学学习路线图》请看下
专知会员服务
77+阅读 · 2020年12月6日
近期必读的七篇 ICLR 2021【因果推理】相关投稿论文
专知会员服务
68+阅读 · 2020年10月6日
【经典书】概率统计导论第五版,730页pdf
专知会员服务
238+阅读 · 2020年7月28日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
最新《机器学习理论初探》概述
专知会员服务
46+阅读 · 2020年5月19日
相关资讯
博客 | MIT—线性代数(下)
AI研习社
6+阅读 · 2018年12月20日
入门 | 一文介绍机器学习中基本的数学符号
机器之心
28+阅读 · 2018年4月9日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
学习人工智能需要哪些必备的数学基础?
数学不好能搞人工智能吗?
算法与数学之美
3+阅读 · 2017年11月27日
GAN的数学原理
算法与数学之美
14+阅读 · 2017年9月2日
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
大学数学不好,或许是数学教材的锅?
算法与数学之美
15+阅读 · 2017年8月1日
Top
微信扫码咨询专知VIP会员