There has been an intense recent activity in embedding of very high dimensional and nonlinear data structures, much of it in the data science and machine learning literature. We survey this activity in four parts. In the first part we cover nonlinear methods such as principal curves, multidimensional scaling, local linear methods, ISOMAP, graph based methods and kernel based methods. The second part is concerned with topological embedding methods, in particular mapping topological properties into persistence diagrams. Another type of data sets with a tremendous growth is very high-dimensional network data. The task considered in part three is how to embed such data in a vector space of moderate dimension to make the data amenable to traditional techniques such as cluster and classification techniques. The final part of the survey deals with embedding in $\mathbb{R}^2$, which is visualization. Three methods are presented: $t$-SNE, UMAP and LargeVis based on methods in parts one, two and three, respectively. The methods are illustrated and compared on two simulated data sets; one consisting of a triple of noisy Ranunculoid curves, and one consisting of networks of increasing complexity and with two types of nodes.


翻译:最近,在嵌入非常高的天体和非线性数据结构方面,最近开展了密集的活动,大部分是数据科学和机器学习文献中的数据科学和机器学习文献。我们对这一活动进行了四个部分的调查。在第一部分,我们涉及非线性方法,如主曲线、多维缩放、局部线性方法、ISOMAP、基于图形的方法和内核方法。第二部分涉及地形嵌入方法,特别是将地形特性绘图纳入持久性图表。另一类具有巨大增长的数据集是非常高的网络数据。第三部分所考虑的任务是如何将这类数据嵌入中等维度的矢量空间,使数据适合集群和分类技术等传统技术。调查的最后阶段涉及嵌入$\mathbb{R ⁇ 2$,这是可视化。介绍了三种方法:美元-SNE、UMAP和大Vis,分别以第一部分、第二部分和第三部分的方法为基础。用两个模拟数据集对方法进行了说明和比较;其中一套是三重无声调的Ranculsoul曲线的三倍,另一套由复杂和两种类型组成的网络组成。

0
下载
关闭预览

相关内容

专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
51+阅读 · 2020年12月14日
专知会员服务
85+阅读 · 2020年12月5日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
图表示学习Graph Embedding综述
AINLP
34+阅读 · 2020年5月17日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Arxiv
0+阅读 · 2021年7月27日
Arxiv
0+阅读 · 2021年7月25日
Arxiv
0+阅读 · 2021年7月22日
Pointer Graph Networks
Arxiv
7+阅读 · 2020年6月11日
Logic Rules Powered Knowledge Graph Embedding
Arxiv
7+阅读 · 2019年3月9日
SepNE: Bringing Separability to Network Embedding
Arxiv
3+阅读 · 2019年2月26日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
图表示学习Graph Embedding综述
AINLP
34+阅读 · 2020年5月17日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
相关论文
Arxiv
0+阅读 · 2021年7月27日
Arxiv
0+阅读 · 2021年7月25日
Arxiv
0+阅读 · 2021年7月22日
Pointer Graph Networks
Arxiv
7+阅读 · 2020年6月11日
Logic Rules Powered Knowledge Graph Embedding
Arxiv
7+阅读 · 2019年3月9日
SepNE: Bringing Separability to Network Embedding
Arxiv
3+阅读 · 2019年2月26日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员