Similarity search is a fundamental algorithmic primitive, widely used in many computer science disciplines. Given a set of points $S$ and a radius parameter $r>0$, the $r$-near neighbor ($r$-NN) problem asks for a data structure that, given any query point $q$, returns a point $p$ within distance at most $r$ from $q$. In this paper, we study the $r$-NN problem in the light of individual fairness and providing equal opportunities: all points that are within distance $r$ from the query should have the same probability to be returned. In the low-dimensional case, this problem was first studied by Hu, Qiao, and Tao (PODS 2014). Locality sensitive hashing (LSH), the theoretically strongest approach to similarity search in high dimensions, does not provide such a fairness guarantee. In this work, we show that LSH based algorithms can be made fair, without a significant loss in efficiency. We propose several efficient data structures for the exact and approximate variants of the fair NN problem. Our approach works more generally for sampling uniformly from a sub-collection of sets of a given collection and can be used in a few other applications. We also develop a data structure for fair similarity search under inner product that requires nearly-linear space and exploits locality sensitive filters. The paper concludes with an experimental evaluation that highlights the inherent unfairness of NN data structures and shows the performance of our algorithms on real-world datasets.


翻译:相似性搜索是一个基本的算法原始, 在许多计算机科学学科中广泛使用。 在一系列点上, 美元和半径参数 $>0 美元的情况下, 美元附近的邻居( 美元- NNN) 问题要求建立一个数据结构, 在任何问点下, 以美元计, 以美元计, 在距离内返回一个点, 以美元计, 以美元计, 以美元计。 在本文中, 我们从个人公平和提供平等机会的角度来研究美元- 零点问题: 所有在查询的距离内, 美元范围内的点应该有相同的返回概率。 在低维方面, 这个问题首先由Hu, Qiao 和 Tao (PODS, 2014) 研究。 本地敏感性信息信息敏感( LSH), 理论上最强的类似性搜索方法, 并不能提供这种公平性保证。 在本文中, 我们用基于LSH的算算法进行公平性分析, 效率不会受到重大损失。 我们为公平 NNE问题的确切和近似变种变量提议若干有效的数据结构。 我们的方法更一般地用于从精确的精确地取样中取样,, 也要求用一个精确的精确的精确的精确的精确的精确的精确的精确和精确性数据采集, 。

0
下载
关闭预览

相关内容

专知会员服务
54+阅读 · 2020年9月7日
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员