We propose a new fast method of measuring distances between large numbers of related high dimensional datasets called the Diffusion Earth Mover's Distance (EMD). We model the datasets as distributions supported on common data graph that is derived from the affinity matrix computed on the combined data. In such cases where the graph is a discretization of an underlying Riemannian closed manifold, we prove that Diffusion EMD is topologically equivalent to the standard EMD with a geodesic ground distance. Diffusion EMD can be computed in $\tilde{O}(n)$ time and is more accurate than similarly fast algorithms such as tree-based EMDs. We also show Diffusion EMD is fully differentiable, making it amenable to future uses in gradient-descent frameworks such as deep neural networks. Finally, we demonstrate an application of Diffusion EMD to single cell data collected from 210 COVID-19 patient samples at Yale New Haven Hospital. Here, Diffusion EMD can derive distances between patients on the manifold of cells at least two orders of magnitude faster than equally accurate methods. This distance matrix between patients can be embedded into a higher level patient manifold which uncovers structure and heterogeneity in patients. More generally, Diffusion EMD is applicable to all datasets that are massively collected in parallel in many medical and biological systems.


翻译:我们提出一种新的快速方法来测量大量相关高维数据集之间的距离,称为“分流地球移动距离”(EMD)。我们用根据综合数据计算出的亲和矩阵模型,根据共同数据图提供支持的分布方式,对数据集进行模型模型。在这种情况下,如果该图表将一个内在的里曼尼封闭的多元体分解,我们证明,分流 EMD与标准的 EMD 具有大地测量距离,在地形学上相当于标准 EMD。分流 EMD 可以用$\tilde{O}(n) 来计算,比以树为基础的 EMDs 等类似快速算法更准确。我们还显示,分流 EMD完全不相同,因此,在诸如深神经网络等梯度框架中,它适合今后使用。最后,我们证明,从210 COVID-19 病人样本中收集的单细胞数据应用了DMDMD。 DMD可以从至少两个高度的细胞中得出病人之间的距离,比基于树基的快速两个层次的快速算出。这种深度结构中,在不断递解的病人之间,这种分解的分解母体母体是所有的病人之间的大量数据。

0
下载
关闭预览

相关内容

图嵌入推荐系统技术综述,64页pdf422篇文献
专知会员服务
63+阅读 · 2021年9月22日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
【ICLR2020-哥伦比亚大学】多关系图神经网络CompGCN
专知会员服务
49+阅读 · 2020年4月2日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
推荐系统中的矩阵分解技术
AINLP
9+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月27日
Arxiv
0+阅读 · 2021年9月24日
Arxiv
0+阅读 · 2021年9月24日
Arxiv
4+阅读 · 2019年1月14日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员