在过去十年中,深度学习领域取得了令人瞩目的成功。如今,神经网络模型几乎主导了所有主流基准测试排行榜,不仅被广泛部署于现实世界场景中,甚至在某些任务上已达到超越人类的水平。然而,这些模型在多个方面仍然脆弱,常常会出现意料之外的失败,其可靠性与可信度问题仍远未得到彻底解决。 在本论文中,我们提出:若要推动神经模型的进一步发展,仅仅关注其准确率已不再足够,更需要系统地理解模型的错误模式,以深入探究剩余错误存在的原因以及如何有效缓解这些问题。
论文的第一部分提出了一个自动化的错误分类框架,能够对 IMAGENET 模型的所有预测错误进行分类,标注其错误类型与严重程度。借助该框架,我们对超过 900 个模型的错误分布进行了全面评估,发现 top-1 准确率与多标签准确率是各类错误比例的强预测指标。特别地,我们观察到,随着模型准确率的提升,严重错误的比例显著下降,这表明传统准确率指标可能低估了模型实际性能与进步的程度。
接着,我们进一步展示该分析框架的实用性,具体应用于研究 IMAGENET 模型在不同扰动条件下的错误分布。我们发现,在常见自然扰动(如随机噪声、模糊、天气变化与数字扰动)下,错误分布趋势与原始干净图像非常相似,并呈现出一致的扩展特性。相对而言,标准的非定向 PGD(Projected Gradient Descent)攻击所引发的严重错误比例反而更低,这一发现令人惊讶,也揭示了自然扰动与对抗扰动在错误分布上的根本差异。
基于上述发现,我们设计了若干种 PGD 攻击变体,这些变体能够诱发更严重的错误并显著降低模型的对抗鲁棒性。在将其中一种攻击方法融入对抗训练后,我们得到了更加准确且在某些设置下严重错误比例更低的模型。
最后,在论文的第三部分,我们从错误分类与分析转向错误缓解,尤其聚焦于公平性问题——目标是构建在不同个体与群体之间不产生歧视的模型。为此,我们提出了一种基于生成建模、对抗训练与随机平滑技术的表示学习方法,以实现并验证图像数据在高维空间下的个体公平性(individual fairness)。 我们希望本论文的研究成果能够激励更多研究者将错误分析工具纳入机器学习模型的开发周期,从而推动模型向着更安全、更可靠的方向发展。