We consider a similarity measure between two sets $A$ and $B$ of vectors, that balances the average and maximum cosine distance between pairs of vectors, one from set $A$ and one from set $B$. As a motivation for this measure, we present lineage tracking in a database. To practically realize this measure, we need an approximate search algorithm that given a set of vectors $A$ and sets of vectors $B_1,...,B_n$, the algorithm quickly locates the set $B_i$ that maximizes the similarity measure. For the case where all sets are singleton sets, essentially each is a single vector, there are known efficient approximate search algorithms, e.g., approximated versions of tree search algorithms, locality-sensitive hashing (LSH), vector quantization (VQ) and proximity graph algorithms. In this work, we present approximate search algorithms for the general case. The underlying idea in these algorithms is encoding a set of vectors via a "long" single vector. The proposed approximate approach achieves significant performance gains over an optimized, exact search on vector sets.


翻译:我们认为两种矢量的相似度度是两套A美元和两套B美元之间的相似度度量,这种量度平衡了两套矢量的平均值和最大余弦距离,一对设定美元,一对设定美元,一对设定美元,一对设定美元。作为这一度量的动机,我们在数据库中提供线系跟踪。为了实际实现这一度量,我们需要一种近似搜索算法,根据一套矢量的矢量值和几套矢量的值,一美元、一美元和一美元,算法迅速定位了一组美元,使相似度量度量最大化。对于所有数据集都是单吨数的情况,基本上每套都是单一矢量,则有已知的有效近似搜索算法,例如树木搜索算法的近似版本、对地点敏感的散射法(LSH)、矢量定量(VQ)和近距离图算法。在这项工作中,我们提出了一般情况的近似搜索算法。这些算法的基本想法是通过“长期”单一矢量对一套矢量进行编码。拟议的近似方法在优化矢量、精确的矢量组合上取得了显著的绩效。

0
下载
关闭预览

相关内容

【如何做研究】How to research ,22页ppt
专知会员服务
109+阅读 · 2021年4月17日
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
知识图谱在可解释人工智能中的作用,附81页ppt
专知会员服务
140+阅读 · 2019年11月11日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
学术报告|UCLA副教授孙怡舟博士
科技创新与创业
9+阅读 · 2019年6月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
0+阅读 · 2021年10月20日
Arxiv
0+阅读 · 2021年10月17日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
【如何做研究】How to research ,22页ppt
专知会员服务
109+阅读 · 2021年4月17日
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
知识图谱在可解释人工智能中的作用,附81页ppt
专知会员服务
140+阅读 · 2019年11月11日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
相关资讯
学术报告|UCLA副教授孙怡舟博士
科技创新与创业
9+阅读 · 2019年6月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员