【NeurIPS2021】上亿量级规模高效向量近似最近邻搜索系统 SPANN - 专知

会员服务 ·

0

【NeurIPS2021】上亿量级规模高效向量近似最近邻搜索系统 SPANN

2021 年 11 月 17 日 专知

SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

论文摘要： 随着数据规模的快速增长，基于内存的向量搜索面临着海量且非常昂贵的内存需求，人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。因此，研究员们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案 SPANN，有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示，SPANN 在多个上亿量级数据集上都能取得两倍多的加速达到 90% 召回率，其查询延迟能够有效地控制在一毫秒左右。同时， SPANN 的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小，从而实现高可扩展性。目前 SPANN 已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。

https://arxiv.org/abs/2111.08566

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“SPANN” 就可以获取《【NeurIPS2021】上亿量级规模高效向量近似最近邻搜索系统 SPANN》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

1

相关内容

最近邻搜索

最近邻搜索

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知会员服务

27+阅读 · 2021年11月16日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【CIKM2021】联合优化查询编码器和乘积量化提高检索性能

专知会员服务

9+阅读 · 2021年9月16日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【CVPR2022】基于节点-邻域互信息最大化的图中节点表示学习

【CVPR2022】基于节点-邻域互信息最大化的图中节点表示学习

专知

0+阅读 · 2022年3月29日

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

专知

0+阅读 · 2021年12月5日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知

0+阅读 · 2021年11月16日

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

专知

9+阅读 · 2021年4月26日

面向高频多态迭代计算的超大动态图自适应数据管理关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

大规模图数据管理中结构相似度查询处理技术研究

国家自然科学基金

3+阅读 · 2013年12月31日

大规模图像近似拷贝快速检测方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于近似关键字的大规模空间数据查询与处理

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

Efficient and Accurate Adaptive Resolution for Weakly-Compressible SPH

Arxiv

0+阅读 · 2022年4月19日

Efficient comparison of sentence embeddings

Arxiv

0+阅读 · 2022年4月18日

Learning-Based Approaches for Graph Problems: A Survey

Arxiv

1+阅读 · 2022年4月17日

Machine Learning Approaches to Automated Mechanism Design for Public Project Problem

Arxiv

0+阅读 · 2022年4月15日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

最近邻搜索

相关VIP内容

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知会员服务

27+阅读 · 2021年11月16日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【CIKM2021】联合优化查询编码器和乘积量化提高检索性能

专知会员服务

9+阅读 · 2021年9月16日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

《多域时代中维持弹性军事训练：挑战与机遇》

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

相关资讯

【CVPR2022】基于节点-邻域互信息最大化的图中节点表示学习

【CVPR2022】基于节点-邻域互信息最大化的图中节点表示学习

专知

0+阅读 · 2022年3月29日

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型

专知

0+阅读 · 2021年12月5日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知

0+阅读 · 2021年11月16日

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

专知

9+阅读 · 2021年4月26日

相关基金

面向高频多态迭代计算的超大动态图自适应数据管理关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

大规模图数据管理中结构相似度查询处理技术研究

国家自然科学基金

3+阅读 · 2013年12月31日

大规模图像近似拷贝快速检测方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于近似关键字的大规模空间数据查询与处理

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

相关论文

Efficient and Accurate Adaptive Resolution for Weakly-Compressible SPH

Arxiv

0+阅读 · 2022年4月19日

Efficient comparison of sentence embeddings

Arxiv

0+阅读 · 2022年4月18日

Learning-Based Approaches for Graph Problems: A Survey

Arxiv

1+阅读 · 2022年4月17日

Machine Learning Approaches to Automated Mechanism Design for Public Project Problem

Arxiv

0+阅读 · 2022年4月15日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

大家都在搜

蓝牙安全攻防

大型语言模型

分布式事务

亲历阿里巴巴面试

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员