The Word Mover's Distance (WMD) is a metric that measures the semantic dissimilarity between two text documents by computing the cost of moving all words of a source/query document to the most similar words of a target document optimally. Computing WMD between two documents is costly because it requires solving an optimization problem that costs \(O(V^3log(V))\) where \(V\) is the number of unique words in the document. Fortunately, the WMD can be framed as the Earth Mover's Distance (EMD) (also known as the Optimal Transportation Distance) for which it has been shown that the algorithmic complexity can be reduced to \(O(V^2)\) by adding an entropy penalty to the optimization problem and a similar idea can be adapted to compute WMD efficiently. Additionally, the computation can be made highly parallel by computing WMD of a single query document against multiple target documents at once (e.g., finding whether a given tweet is similar to any other tweets happened in a day). In this paper, we present a shared-memory parallel Sinkhorn-Knopp Algorithm to compute the WMD of one document against many other documents by adopting the \(O(V^2)\) EMD algorithm. We used algorithmic transformations to change the original dense compute-heavy kernel to a sparse compute kernel and obtained \(67\times\) speedup using \(96\) cores on the state-of-the-art of Intel\textregistered{} 4-sockets Cascade Lake machine w.r.t. its sequential run. Our parallel algorithm is over \(700\times\) faster than the naive parallel python code that internally uses optimized matrix library calls.


翻译:Word Moler 的距离( Word 70) 是测量两个文本文档之间语义变异度的一种度量, 计算将源/ query 文档的所有字词移动到目标文档最相似的字词的成本。 计算两个文档之间的大规模毁灭性武器成本是昂贵的, 因为它需要解决一个优化问题, 也就是( O) (V) 3log( V)\ ) 是文档中独有词数。 幸运的是, 大规模毁灭性武器可以被设置为 Earth Moler 的距离( 也称为 优化运输距离 ) (EMD ) 。 对此,我们已经显示, 算法的复杂性可以降低到 most 文档中最相似的字数 。 在本文中, 我们用一个共振动的直径直线解码- likeyal likeyal- laxlational ormaxal 。 我们用一个直线的直线的 Sinkhorn- kopreal- rmalational 2, 使用一个正值的直径直径O- massal- massal- mission 4cal- missional- mession 。 和我们的直径解的直径的直径对一个正序文档的直径变。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2021年4月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
Arxiv
0+阅读 · 2021年5月17日
Arxiv
0+阅读 · 2021年5月17日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2021年4月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
Top
微信扫码咨询专知VIP会员