To measure the similarity of documents, the Wasserstein distance is a powerful tool, but it requires a high computational cost. Recently, for fast computation of the Wasserstein distance, methods for approximating the Wasserstein distance using a tree metric have been proposed. These tree-based methods allow fast comparisons of a large number of documents; however, they are unsupervised and do not learn task-specific distances. In this work, we propose the Supervised Tree-Wasserstein (STW) distance, a fast, supervised metric learning method based on the tree metric. Specifically, we rewrite the Wasserstein distance on the tree metric by the parent-child relationships of a tree and formulate it as a continuous optimization problem using a contrastive loss. Experimentally, we show that the STW distance can be computed fast, and improves the accuracy of document classification tasks. Furthermore, the STW distance is formulated by matrix multiplications, runs on a GPU, and is suitable for batch processing. Therefore, we show that the STW distance is extremely efficient when comparing a large number of documents.


翻译:为了测量文件的相似性,瓦森斯坦距离是一个强大的工具,但它需要很高的计算成本。最近,为了快速计算瓦森斯坦距离,提出了使用树度测量仪来接近瓦森斯坦距离的方法。这些以树为基础的方法可以快速比较大量文件;然而,它们不受监督,不学习特定任务距离。在这项工作中,我们建议采用以树度量为基础的监督树-瓦塞尔斯坦(STW)距离(STW),这是一种快速、有监督的衡量标准学习方法。具体地说,我们用树的父子关系在树测量仪上重写瓦西斯坦距离,并用对比性损失来将其表述为持续优化问题。我们实验性地表明,STW距离可以快速计算,提高文件分类任务的准确性。此外,STW距离是由矩阵乘法制定的,在GPU上运行,适合批量处理。因此,我们表明,在比较大量文件时,STW距离非常高效。

0
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
专知会员服务
22+阅读 · 2021年9月23日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
29+阅读 · 2020年4月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月24日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年3月12日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年9月24日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年3月12日
Top
微信扫码咨询专知VIP会员