We consider a similarity measure between two sets $A$ and $B$ of vectors, that balances the average and maximum cosine distance between pairs of vectors, one from set $A$ and one from set $B$. As a motivation for this measure, we present lineage tracking in a database. To practically realize this measure, we need an approximate search algorithm that given a set of vectors $A$ and sets of vectors $B_1,...,B_n$, the algorithm quickly locates the set $B_i$ that maximizes the similarity measure. For the case where all sets are singleton sets, essentially each is a single vector, there are known efficient approximate search algorithms, e.g., approximated versions of tree search algorithms, locality-sensitive hashing (LSH), vector quantization (VQ) and proximity graph algorithms. In this work, we present approximate search algorithms for the general case. The underlying idea in these algorithms is encoding a set of vectors via a "long" single vector.


翻译:我们考虑的是两种矢量的相似度度量,一种是A美元,另一种是B美元,另一种是矢量的平均值和最大余弦距离,一种是A美元,另一种是B美元。作为这一度量的动机,我们在数据库中提供线系跟踪。为了实际实现这一度量,我们需要一种近似搜索算法,根据一套矢量的矢量的组合,A美元和矢量的组合,$B_1,...,B_n美元,算法会迅速定位一套美元B_i美元,使相似度量量最大化。对于所有数据集都是单吨数的情况,基本上都是单一矢量的,有已知的有效近似搜索算法,例如树木搜索算法的近似版本、对地点敏感的散射法(LSH)、矢量定量(VQ)和近距离图算法。在这项工作中,我们为一般案例提供近似搜索算法。这些算法的基本想法是通过“长的单一矢量量”对一组矢量进行编码。

0
下载
关闭预览

相关内容

专知会员服务
97+阅读 · 2021年8月16日
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
专知会员服务
75+阅读 · 2021年3月16日
【经典书】线性代数,Linear Algebra,525页pdf
专知会员服务
74+阅读 · 2021年1月29日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
已删除
将门创投
11+阅读 · 2019年8月13日
Arxiv
0+阅读 · 2021年9月14日
Arxiv
0+阅读 · 2021年9月14日
Arxiv
0+阅读 · 2021年9月13日
VIP会员
相关VIP内容
专知会员服务
97+阅读 · 2021年8月16日
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
专知会员服务
75+阅读 · 2021年3月16日
【经典书】线性代数,Linear Algebra,525页pdf
专知会员服务
74+阅读 · 2021年1月29日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
已删除
将门创投
11+阅读 · 2019年8月13日
Top
微信扫码咨询专知VIP会员