We initiate the study of active learning algorithms for classifying strategic agents. Active learning is a well-established framework in machine learning in which the learner selectively queries labels, often achieving substantially higher accuracy and efficiency than classical supervised methods-especially in settings where labeling is costly or time-consuming, such as hiring, admissions, and loan decisions. Strategic classification, however, addresses scenarios where agents modify their features to obtain more favorable outcomes, resulting in observed data that is not truthful. Such manipulation introduces challenges beyond those in learning from clean data. Our goal is to design active and noise-tolerant algorithms that remain effective in strategic environments-algorithms that classify strategic agents accurately while issuing as few label requests as possible. The central difficulty is to simultaneously account for strategic manipulation and preserve the efficiency gains of active learning. Our main result is an algorithm for actively learning linear separators in the strategic setting that preserves the exponential improvement in label complexity over passive learning previously obtained only in the non-strategic case. Specifically, for data drawn uniformly from the unit sphere, we show that a modified version of the Active Perceptron algorithm [DKM05,YZ17] achieves excess error $ε$ using only $\tilde{O}(d \ln \frac{1}ε)$ label queries and incurs at most $\tilde{O}(d \ln \frac{1}ε)$ additional mistakes relative to the optimal classifier, even in the nonrealizable case, when a $\tildeΩ(ε)$ fraction of inputs have inconsistent labels with the optimal classifier. The algorithm is computationally efficient and, under these distributional assumptions, requires substantially fewer label queries than prior work on strategic Perceptron [ABBN21].


翻译:我们首次研究了用于分类策略性智能体的主动学习算法。主动学习是机器学习中一个成熟的框架,其中学习器选择性地查询标签,通常比传统的监督方法获得显著更高的准确性和效率——特别是在标签标注成本高昂或耗时的场景中,例如招聘、录取和贷款决策。然而,策略分类处理的是智能体修改其特征以获得更有利结果的情况,导致观察到的数据不真实。这种操纵引入了超越从干净数据中学习所面临的挑战。我们的目标是设计在策略环境中仍保持有效的主动且抗噪声的算法——这些算法能够准确分类策略性智能体,同时尽可能减少标签请求的数量。核心难点在于同时考虑策略性操纵并保持主动学习的效率增益。我们的主要成果是一种在策略设置下主动学习线性分离器的算法,该算法保持了在标签复杂度上相对于被动学习的指数级改进,这一改进先前仅在非策略情况下获得。具体而言,对于从单位球面上均匀抽取的数据,我们证明了一种改进版的主动感知机算法 [DKM05,YZ17] 能够仅使用 $\tilde{O}(d \ln \frac{1}ε)$ 次标签查询实现超额误差 $ε$,并且相对于最优分类器最多产生 $\tilde{O}(d \ln \frac{1}ε)$ 次额外错误,即使在不可实现的情况下,当有 $\tildeΩ(ε)$ 比例的输入与最优分类器的标签不一致时也是如此。该算法计算效率高,并且在上述分布假设下,所需的标签查询数量显著少于先前关于策略感知机的研究 [ABBN21]。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
专知会员服务
22+阅读 · 2021年5月27日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月16日
VIP会员
相关VIP内容
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
专知会员服务
22+阅读 · 2021年5月27日
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员