Integrating datasets from different disciplines is hard because the data are often qualitatively different in meaning, scale, and reliability. When two datasets describe the same entities, many scientific questions can be phrased around whether the (dis)similarities between entities are conserved across such different data. Our method, CLARITY, quantifies consistency across datasets, identifies where inconsistencies arise, and aids in their interpretation. We illustrate this using three diverse comparisons: gene methylation vs expression, evolution of language sounds vs word use, and country-level economic metrics vs cultural beliefs. The non-parametric approach is robust to noise and differences in scaling, and makes only weak assumptions about how the data were generated. It operates by decomposing similarities into two components: a `structural' component analogous to a clustering, and an underlying `relationship' between those structures. This allows a `structural comparison' between two similarity matrices using their predictability from `structure'. Significance is assessed with the help of re-sampling appropriate for each dataset. The software, CLARITY, is available as an R package from https://github.com/danjlawson/CLARITY.


翻译:整合不同学科的数据集十分困难,因为数据在含义、规模和可靠性方面往往质量不同。当两个数据集描述相同实体时,许多科学问题可以围绕以下两个方面来表述:实体之间的(不同)差异是否保存在这种不同数据之间。我们的方法是CLARITY,对各数据集之间的一致性进行量化,找出出现不一致之处,并帮助解释这些数据集。我们用三种不同的比较方法来说明这一点:基因甲基化与表达法,语言声音与字词使用法的演变,以及国家一级的经济指标与文化信仰。非参数方法对噪音和尺度的差别具有很强性,对数据生成方式的假设很弱。它通过将相似性分解成两个组成部分来运作:一个“结构”部分,类似于组合,以及这些结构之间的根本“关系”。这允许利用“结构”的可预测性,在两个相似的矩阵之间进行“结构比较”。通过重新标注适合每个数据集的软件、CLARARITY/LABRIY作为RA的包。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年8月8日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
339+阅读 · 2020年1月27日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
12+阅读 · 2019年12月27日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
7+阅读 · 2018年8月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
13+阅读 · 2019年1月26日
A Compact Embedding for Facial Expression Similarity
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2021年8月8日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
339+阅读 · 2020年1月27日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
12+阅读 · 2019年12月27日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
7+阅读 · 2018年8月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员