To measure the similarity of documents, the Wasserstein distance is a powerful tool, but it requires a high computational cost. Recently, for fast computation of the Wasserstein distance, methods for approximating the Wasserstein distance using a tree metric have been proposed. These tree-based methods allow fast comparisons of a large number of documents; however, they are unsupervised and do not learn task-specific distances. In this work, we propose the Supervised Tree-Wasserstein (STW) distance, a fast, supervised metric learning method based on the tree metric. Specifically, we rewrite the Wasserstein distance on the tree metric by the parent-child relationships of a tree, and formulate it as a continuous optimization problem using a contrastive loss. Experimentally, we show that the STW distance can be computed fast, and improves the accuracy of document classification tasks. Furthermore, the STW distance is formulated by matrix multiplications, runs on a GPU, and is suitable for batch processing. Therefore, we show that the STW distance is extremely efficient when comparing a large number of documents.


翻译:为了测量文件的相似性,瓦森斯坦距离是一个强大的工具,但它需要很高的计算成本。最近,为了快速计算瓦森斯坦距离,提出了使用树度测量仪来接近瓦森斯坦距离的方法。这些以树为基础的方法可以快速比较大量文件;然而,它们不受监督,不学习特定任务距离。在这项工作中,我们建议采用以树度量为基础的监督树-瓦塞尔斯坦(STW)距离(STW),这是一种快速的、受监督的计量学习方法。具体地说,我们用树的父子关系在树测量仪上重写瓦西斯坦距离,并用对比性损失来把它设计成一个持续优化的问题。我们实验性地表明,STW距离可以快速计算,提高文件分类任务的准确性。此外,STW距离是由矩阵乘法设计的,在GPU上运行,适合批量处理。因此,我们表明,在比较大量文件时,STW距离非常高效。

2
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
PyTorch 实战:计算 Wasserstein 距离
Python开发者
4+阅读 · 2019年3月19日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年3月12日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员