【ACMMM2021】通用近似交叉验证的模型选择：监督、半监督与比对学习

General Approximate Cross Validation for Model Selection: Supervised, Semi-supervised and Pairwise Learning

作者：朱博炜，刘勇

通讯作者：刘勇

论文概述：交叉验证（CV）是一种普遍应用于评估机器学习模型性能的工具。然而，特别是在数据量巨大的多媒体任务中，由于其需要进行多次训练，这种方法具有很高的复杂性。在本文中，我们提供了一个统一的框架来近似各种常见的多媒体任务的CV误差，可以广泛应用在有监督、半监督和成对学习任务中，且只需要训练一次。此外，我们研究了所提出的近似CV的理论性能，并给出了一个显式的有限样本误差界。在多个数据集上的实验结果表明，我们的近似CV与原始CV没有统计上的差异，但可以显著提高模型选择的效率，这在模型选择上有很大的优势。

成为VIP会员查看完整内容

相关内容

交叉验证

关注 2

交叉验证，有时也称为旋转估计或样本外测试，是用于评估统计结果如何的各种类似模型验证技术中的任何一种分析将概括为一个独立的数据集。它主要用于设置，其目的是预测，和一个想要估计如何准确地一个预测模型在实践中执行。在预测问题中，通常会给模型一个已知数据的数据集，在该数据集上进行训练（训练数据集）以及未知数据（或首次看到的数据）的数据集（根据该数据集测试模型）（称为验证数据集或测试集）。交叉验证的目标是测试模型预测未用于估计数据的新数据的能力，以发现诸如过度拟合或选择偏倚之类的问题，并提供有关如何进行建模的见解。该模型将推广到一个独立的数据集（例如，未知数据集，例如来自实际问题的数据集）。一轮交叉验证涉及分割一个样品的数据到互补的子集，在一个子集执行所述分析（称为训练集），以及验证在另一子集中的分析（称为验证集合或测试集）。为了减少可变性，在大多数方法中，使用不同的分区执行多轮交叉验证，并将验证结果组合（例如取平均值）在各轮中，以估计模型的预测性能。总而言之，交叉验证结合了预测中适用性的度量（平均），以得出模型预测性能的更准确估计。

KDD2021最佳博士论文奖揭晓！斯坦福Aditya博士获得《在有限监督条件下的学习表征和推理》

专知会员服务

30+阅读 · 2021年8月7日

【ICML2021】具有性能保证的弱监督下的对抗性多类学习

专知会员服务

17+阅读 · 2021年7月13日

【KDD2021】元自训练的少样本神经序列标记

专知会员服务

32+阅读 · 2021年7月2日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日