We consider a query-based data acquisition problem for binary classification of unknown labels, which has diverse applications in communications, crowdsourcing, recommender systems and active learning. To ensure reliable recovery of unknown labels with as few number of queries as possible, we consider an effective query type that asks "group attribute" of a chosen subset of objects. In particular, we consider the problem of classifying $m$ binary labels with XOR queries that ask whether the number of objects having a given attribute in the chosen subset of size $d$ is even or odd. The subset size $d$, which we call query degree, can be varying over queries. We consider a general noise model where the accuracy of answers on queries changes depending both on the worker (the data provider) and query degree $d$. For this general model, we characterize the information-theoretic limit on the optimal number of queries to reliably recover $m$ labels in terms of a given combination of degree-$d$ queries and noise parameters. Further, we propose an efficient inference algorithm that achieves this limit even when the noise parameters are unknown.


翻译:我们考虑对未知标签进行二进制分类的基于查询的数据获取问题,这种分类在通信、众包、推荐系统以及积极学习方面有着不同的应用。为了确保可靠地恢复未知标签,并尽可能少地提出查询,我们考虑一种有效的查询类型,要求特定对象子集的“群属性”。我们特别考虑对二进制标签进行分类的问题,并使用XOR查询,询问在所选择的美元大小子集中具有特定属性的物体数量是偶数还是奇数。我们称之为查询度的子组规模$d,在查询时可以是不同的。我们考虑一般的噪音模式,根据工人(数据提供者)和查询度(美元)对查询的准确性进行查询。对于这一通用模式,我们用最理想的查询次数来说明信息理论限度,以便可靠地回收某个程度-美元查询和噪音参数的组合中的1百万美元标签。我们建议一种有效的推算法,即使不知道噪音参数,也能够达到这一限度。

0
下载
关闭预览

相关内容

还在修改博士论文?这份《博士论文写作技巧》为你指南
专知会员服务
60+阅读 · 2020年3月19日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
12+阅读 · 2017年10月13日
Arxiv
0+阅读 · 2021年6月16日
Arxiv
0+阅读 · 2021年6月16日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
12+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员