Real-world data typically contain a large number of features that are often heterogeneous in nature, relevance, and also units of measure. When assessing the similarity between data points, one can build various distance measures using subsets of these features. Using the fewest features but still retaining sufficient information about the system is crucial in many statistical learning approaches, particularly when data are sparse. We introduce a statistical test that can assess the relative information retained when using two different distance measures, and determine if they are equivalent, independent, or if one is more informative than the other. This in turn allows finding the most informative distance measure out of a pool of candidates. The approach is applied to find the most relevant policy variables for controlling the Covid-19 epidemic and to find compact yet informative representations of atomic structures, but its potential applications are wide ranging in many branches of science.


翻译:现实世界数据通常包含大量特征,这些特征在性质、相关性和计量单位方面往往各不相同。在评估数据点之间的相似性时,可以使用这些特征的子集建立各种距离测量。使用最少数的特征,但仍保留足够的系统信息,在许多统计学习方法中至关重要,特别是在数据稀少的情况下。我们采用统计测试,评估在使用两种不同距离测量方法时所保留的相对信息,确定它们是否等同、独立或是否比其他方法更丰富。这反过来又可以从一个候选人库中找到信息最丰富的距离测量方法。采用这种方法是为了找到控制Covid-19流行病的最相关的政策变量,并找到原子结构的紧凑但信息丰富的表述,但其潜在应用在许多科学领域十分广泛。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
42+阅读 · 2021年4月7日
专知会员服务
77+阅读 · 2021年3月16日
【干货书】数据科学家统计实战,附代码与409页pdf
专知会员服务
60+阅读 · 2020年11月6日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
已删除
将门创投
5+阅读 · 2019年4月15日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
The Measure of Intelligence
Arxiv
7+阅读 · 2019年11月5日
Arxiv
4+阅读 · 2019年8月19日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年4月15日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员