现代机器学习技术在许多领域展现了出色的能力。尽管在实验环境中超越人类的性能表现,但许多研究揭示了由于现实世界应用中基本假设的违反而导致机器学习模型的脆弱性。这些问题显著阻碍了机器学习的适用性和可靠性。这激发了在自然诱导的数据损坏或改变下保持模型性能的需求,这被称为“自然鲁棒性”。为此,本论文首先研究了两个自然发生的问题:标签损坏和分布偏移。此后,我们继续探索异常分布数据在机器学习鲁棒性中的价值。
首先,训练样本的观测标签被假定为真实值。然而,从人类那里获得的标签往往可能受到标签损坏,导致泛化性能不佳。这引发了对标签损坏鲁棒性的重要性,目标是在存在噪声和错误标签的情况下训练出一个鲁棒的分类器。我们首先研究多个网络之间的多样性如何影响样本选择和对标签噪声的过拟合。对于多个噪声标签的学习问题,我们设计了一个端到端的学习框架,以最大化联合注释信息的可能性,这不仅在理论上一致,而且在实验上有效和高效。
其次,经典机器学习方法建立在独立同分布(i.i.d.)假设的基础上,即训练和测试数据是独立且相同分布的。然而,部署在开放世界中的神经网络常常在异常分布输入下挣扎,它们对内部和外部分布输入都产生异常高的置信度。为了缓解这个问题,我们首先揭示为什么交叉熵损失鼓励模型过度自信。然后,我们为交叉熵损失设计了一个简单的修正,增强了许多现有的异常分布(OOD)检测的后处理方法。使用提出的损失进行训练,网络倾向于给出保守的预测,并在内部和外部分布输入之间的softmax置信度分数上实现了强分离性。 最后,传统机器学习算法仅利用来自内部分布样本的信息,这些样本通常昂贵且难以收集。因此,探索几乎免费的异常分布样本的价值在理论和实践上都非常重要。我们研究开放集噪声标签如何影响泛化和对内在噪声标签的鲁棒性,如何从SGD噪声的角度理论分析开放集噪声标签的影响,并设计了利用异常分布样本改善标签噪声鲁棒性的算法。此外,我们提供了首次利用异常分布数据重新平衡长尾数据集的类别先验,并研究异常分布数据对长尾学习中学到的表示的影响。
我们在多个模拟和现实世界基准上评估了所有介绍方法的有效性和鲁棒性。报告的结果表明,我们的方法在缓解相应问题方面优于许多最先进的方法。我们希望我们的努力能提供洞察力,激发针对这些鲁棒问题的特别设计方法,并加速探索异常分布样本以设计有效和鲁棒的系统。