卷积神经网络(CNNs)和其他深度网络在各种计算机视觉任务中实现了前所未有的突破,从图像分类到目标检测、语义分割、图像字幕、视觉问答和视觉对话。虽然这些模型具有卓越的性能,但它们缺乏可分解为单个直观组件的能力,这使得它们难以解释。因此,当今天的智能系统出现故障时,它们通常会在没有警告或解释的情况下出现令人尴尬的故障,让用户盯着一个不连贯的输出,想知道系统为什么会这样做。为了能够建立对智能系统的信任,并将其有意义地融入我们的日常生活,我们必须建立“透明”的模型,能够解释它们为什么预测它们所预测的东西。
本教程将向参与者介绍超越性能的计算机视觉模型的不同方面。Ramprasaath R. Selvaraju将专注于可解释AI方法,以及理解决策过程如何帮助修正模型的各种特征。Sara Hooker将讨论视觉模型的可信度和社会影响。Zhou Bolei将专注于解剖视觉模型的交互方面及其对视觉编辑应用的影响。Aleksander Madry将专注于视觉模型的鲁棒性。因此,在本教程中,除了在视觉模型中同样重要的测试集性能之外,还会有不同视角的统一。