The problem of learning threshold functions is a fundamental one in machine learning. Classical learning theory implies sample complexity of $O(\xi^{-1} \log(1/\beta))$ (for generalization error $\xi$ with confidence $1-\beta$). The private version of the problem, however, is more challenging and in particular, the sample complexity must depend on the size $|X|$ of the domain. Progress on quantifying this dependence, via lower and upper bounds, was made in a line of works over the past decade. In this paper, we finally close the gap for approximate-DP and provide a nearly tight upper bound of $\tilde{O}(\log^* |X|)$, which matches a lower bound by Alon et al (that applies even with improper learning) and improves over a prior upper bound of $\tilde{O}((\log^* |X|)^{1.5})$ by Kaplan et al. We also provide matching upper and lower bounds of $\tilde{\Theta}(2^{\log^*|X|})$ for the additive error of private quasi-concave optimization (a related and more general problem). Our improvement is achieved via the novel Reorder-Slice-Compute paradigm for private data analysis which we believe will have further applications.
翻译:学习阈值是机器学习中一个根本性的问题。 经典学习理论的典型学习理论意味着样本复杂度为$O( \\\ ⁇ -1 )\ log( 1/\ 贝塔 ) 美元( 信任美元 美元 ) 美元( 美元 ) 美元( 泛化错误 美元 美元 ) 美元( 美元 美元 ) 的样本复杂性 。 然而, 这个问题的私人版本更具有挑战性, 特别是, 抽样复杂性必须取决于域的大小。 在过去十年里,通过下限和上限量化这种依赖性的进展是在一系列工作中完成的。 在本文中,我们最终缩小了近似DP( ), 并提供了近乎紧的 美元( 美元) 美元( 美元) 的样本复杂度( 美元 美元 美元 ) ( 美元 美元 美元 ) ( 美元 美元 美元 ) ( 美元 ) ( 美元 ) ( 美元 ) ( 美元 ) ( ) ( 美元 美元 ) ( ) ( 美元 美元 ) ( 美元 ) ( 美元 ) ( 美元 ) ( 美元 ) ( 美元 美元 ) ( 美元 ) ( 美元 ) ( ) ( ) ( 美元 ) ( ) ( ) ( 美元 ) ( ) ( ) ( 美元 ) ( 美元 ) ( ) ( 美元 ) ( ) ( ) ( ) ( ) ( ) ( 美元 ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 美元) ( 美元 ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 美元) ( ) ( ) ( ) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( ) ( 美元) ( 美元) ( 美元) ( 美元) (