We introduce a procedure for conditional density estimation under logarithmic loss, which we call SMP (Sample Minmax Predictor). This estimator minimizes a new general excess risk bound for statistical learning. On standard examples, this bound scales as $d/n$ with $d$ the model dimension and $n$ the sample size, and critically remains valid under model misspecification. Being an improper (out-of-model) procedure, SMP improves over within-model estimators such as the maximum likelihood estimator, whose excess risk degrades under misspecification. Compared to approaches reducing to the sequential problem, our bounds remove suboptimal $\log n$ factors and can handle unbounded classes. For the Gaussian linear model, the predictions and risk bound of SMP are governed by leverage scores of covariates, nearly matching the optimal risk in the well-specified case without conditions on the noise variance or approximation error of the linear model. For logistic regression, SMP provides a non-Bayesian approach to calibration of probabilistic predictions relying on virtual samples, and can be computed by solving two logistic regressions. It achieves a non-asymptotic excess risk of $O((d + B^2R^2)/n)$, where $R$ bounds the norm of features and $B$ that of the comparison parameter; by contrast, no within-model estimator can achieve better rate than $\min({B R}/{\sqrt{n}}, {d e^{BR}}/{n} )$ in general. This provides a more practical alternative to Bayesian approaches, which require approximate posterior sampling, thereby partly addressing a question raised by Foster et al. (2018).


翻译:我们引入了一种在对数损失 { 对数损失下进行有条件密度估计的程序, 我们称之为 { 最高可能性估测器 { (Sample Minmax 预测器 ) 。 这个估测器将新的一般超额风险降到最低, 供统计学习之用。 在标准示例中, 这个约束比例为美元/ 美元, 模型尺寸为美元, 样本大小为美元, 且在模型区分错误的情况下仍然非常有效 。 作为不适当的( 模型外) 程序, SMP 改善了模型内估测器( 最大可能性 { 估测器 ), 其超额风险会降低定额 。 与减少连续问题的方法相比, 我们的界限可以消除低于最优美的 $( n) 的超值 。 对于高斯线模型来说, SMP 的预测和风险约束值受杠杆值的制约, 几乎与精度案例中的最佳风险不匹配, 而对于线性模型的噪音差异或近差错误。 对于物流回归, SMP 提供了一种非巴耶 方法, 来校准的精确的预测 。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
已删除
将门创投
5+阅读 · 2017年8月15日
Arxiv
0+阅读 · 2022年2月11日
Arxiv
0+阅读 · 2022年2月9日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员