We present a set of algorithms for Multidimensional Scaling (MDS) to be used with large datasets. MDS is a statistic tool for reduction of dimensionality, using as input a distance matrix of dimensions $n \times n$. When $n$ is large, classical algorithms suffer from computational problems and MDS configuration can not be obtained. In this paper we address these problems by means of three algorithms: Divide and Conquer MDS, Fast MDS and MDS based on Gower interpolation (the first and the last being original proposals). The main ideas of these methods are based on partitioning the dataset into small pieces, where classical MDS methods can work. In order to check the performance of the algorithms as well as to compare them, we do a simulation study. This study points out that Fast MDS and MDS based on Gower interpolation are appropriated to use when $n$ is large. Although Divide and Conquer MDS is not as fast as the other two algorithms, it is the best method that captures the variance of the original data.


翻译:我们提出了一套用于大型数据集的多层面增强(MDS)的算法。 MDS是用于减少维度的统计工具,它使用一个维度的距离矩阵输入 $ 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 的经典算法 美元 美元 美元 美元 美元 美元 美元 美元 美元 的 MDS 配置 无法 获得 MDS 。 在本文件中,我们通过三种算法来解决这些问题: 分解和征服 MDS 、 快速 MDS 和 MDS 以 Gower 的内插法为基础 。 这些方法的主要想法是基于将数据集分割成小块, 经典 MDS 方法可以发挥作用 。 为了检查这些算法的性能和比较它们, 我们做一个模拟研究。 这项研究指出, 以 Gower 美元 的快速 MDS 和 MDS 美元 美元 以 美元 美元 美元 美元 用于 美元 。 虽然 分解和 Conquerque MDS 不是 和 两种算法那么快, 但是, 但这是最佳的方法来捕捉取原始数据 。

0
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
专知会员服务
42+阅读 · 2020年12月18日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2019年9月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
0+阅读 · 2021年3月9日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年9月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员