机器学习模型在有偏差的数据集上训练时是有偏差的。最近提出了许多方法,以减轻被确定为先验的偏差。然而,在现实世界的应用中,标注偏差不仅耗时而且具有挑战性。本论文考虑了三种不同的场景,并提出了学习鲁棒模型的新算法。这些算法是有效的,因为它们不需要明确的偏差注释,从而实现了实用的机器学习。
首先,我们引入了一种算法,该算法对从多个环境中收集的数据进行操作,其中偏差特征和标签之间的相关性可能会有所不同。我们表明,当使用在一个环境上训练的分类器对来自不同环境的例子进行预测时,它的错误是隐藏偏见的信息。
然后,我们利用这些错误来创建一组示例,这些示例的插值结果只具有稳定的相关性。我们的算法在四种文本和图像分类任务上实现了最新的技术。然后我们考虑无法访问多个环境的情况,这是新任务或资源有限任务的常见场景。我们证明,在现实世界的应用中,相关的任务往往有类似的偏见。在此基础上,我们提出了一种算法,从资源丰富的源任务中推断出偏差特征,并将这种知识转移到目标任务中。与横跨5个数据集的15个基线相比,我们的方法始终提供显著的性能提升。
最后,我们研究了只给出一组输入标签对的自动偏差检测。我们的算法学习分割数据集,使得在训练分割上训练的分类器不能泛化到测试分割上。性能差距为测量学习特征的偏差程度提供了一个智能体,因此可以用来识别未知偏差。在六个NLP和视觉任务上的实验表明,我们的方法能够产生与人类识别的偏差相关的虚假分裂。