Exploring multidimensional datasets is a ubiquitous part of the ones working with data, where interpreting clusters is one of the main tasks. These multidimensional datasets are usually encoded using scatter-plots representations, where spatial proximity encodes similarity among data samples. In the literature, techniques try to understand the scatter plot organization by visualizing the importance of the features for clusters definition with interaction and layout enrichment strategies. However, the approaches used to interpret dimensionality reduction usually do not differentiate clusters well, which hampers analysis where the focus is to understand the differences among clusters. This paper introduces a methodology to visually explore multidimensional datasets and interpret clusters' formation based on the contrastive analysis. We also introduce a bipartite graph to visually interpret and explore the relationship between the statistical variables used to understand how the attributes influenced cluster formation. Our methodology is validated through case studies. We explore a multivariate dataset of patients with vertebral problems and two document collections, one related to news articles and other related to tweets about COVID-19 symptoms. Finally, we also validate our approach through quantitative results to demonstrate how it can be robust enough to support multidimensional analysis.


翻译:探索多维数据集是处理数据的方法中无处不在的一部分,其中解释组群是主要任务之一。这些多维数据集通常是使用分布式分布式分布式表达法编码的,其中空间相近使数据样本具有相似性。在文献中,技术试图通过以互动和布局浓缩战略来直观组合定义特性的重要性来理解散射图组织。然而,用于解释减少维度的方法通常不会很好地区分组群,这妨碍了分析的重点在于了解组群之间的差异。本文介绍了一种方法,以视觉方式探索多维数据集和根据对比分析来解释组群的形成。我们还引入了一个双片图,用于直观解释和探索用于理解属性如何影响组群集形成的统计数据变量之间的关系。我们的方法通过案例研究得到验证。我们探索了具有脊椎问题和两个文件收藏的多变数据集,一个与新闻文章有关,另一个与关于COVID-19症状的推文有关。最后,我们还通过定量结果验证了我们的方法,以显示它如何足够稳健地支持多层面分析。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
【经典书】线性代数,Linear Algebra,525页pdf
专知会员服务
76+阅读 · 2021年1月29日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
已删除
将门创投
7+阅读 · 2018年4月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Arxiv
31+阅读 · 2020年9月21日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
VIP会员
相关资讯
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
已删除
将门创投
7+阅读 · 2018年4月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员