This research proposes a data segmentation algorithm which combines t-SNE, DBSCAN, and Random Forest classifier to form an end-to-end pipeline that separates data into natural clusters and produces a characteristic profile of each cluster based on the most important features. Out-of-sample cluster labels can be inferred, and the technique generalizes well on real data sets. We describe the algorithm and provide case studies using the Iris and MNIST data sets, as well as real social media site data from Instagram. This is a proof of concept and sets the stage for further in-depth theoretical analysis.


翻译:这项研究建议采用数据分离算法,将t-SNE、DBSCAN和随机森林分类法结合起来,形成一条端到端管道,将数据分为自然集群,并根据最重要的特征产生每个集群的特点。可以推断出群集外标签,技术在真实数据集上非常概括。我们用Iris和MNIST数据集以及Instagram的真社交媒体站点数据描述算法并提供案例研究。这是概念的证明,为进一步深入的理论分析奠定了基础。

2
下载
关闭预览

相关内容

【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
86+阅读 · 2020年5月11日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
专知会员服务
115+阅读 · 2019年12月24日
【电子书推荐】Data Science with Python and Dask
专知会员服务
43+阅读 · 2019年6月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
7+阅读 · 2018年10月12日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
7+阅读 · 2018年10月12日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Top
微信扫码咨询专知VIP会员