来源| 麻省理工学院
编辑| 专知翻译整理
揭开机器学习系统的神秘面纱
麻省理工学院的研究人员创造了一种技术,可以用自然语言自动描述单个神经元在神经网络中的作用。
01 研究成果在顶级会议【ICLR 2022】发表
标题 Natural Language Descriptions of Deep Visual Features
作者 Evan Hernandez, Sarah Schwettmann, David Bau, Teona Bagashvili, Antonio Torralba, Jacob Andreas
摘要 深度网络中的一些神经元专门识别输入的高度特定的感知、结构或语义特征。在计算机视觉中,存在用于识别对颜色、纹理和对象类别等单个概念类别作出反应的神经元的技术。但是这些技术的范围有限,只能标记任何网络中的一小部分神经元和行为。是否有可能对神经元级计算进行更丰富的表征?我们引入了一个程序(称为 MILAN,用于神经元的互信息引导语言注释),该程序使用开放式、组合式自然语言描述自动标记神经元。给定一个神经元,MILAN 通过搜索一个自然语言字符串来生成一个描述,该字符串使与神经元处于活动状态的图像区域的逐点互信息最大化。MILAN 生成细粒度的描述,捕捉学习特征中的分类、关系和逻辑结构。这些描述在各种模型架构和任务中与人工生成的特征描述高度一致,有助于理解和控制学习模型。我们重点介绍自然语言神经元描述的三种应用。首先,我们使用 MILAN 进行分析,表征视觉模型中对属性、类别和关系信息有选择性的神经元的分布和重要性。其次,我们使用 MILAN 进行审计,在旨在掩盖这些特征的数据集上训练的模型中显示对受保护类别(如种族和性别)敏感的神经元。最后,我们使用 MILAN 进行编辑。
02 成果解读
神经网络有时被称为黑盒,因为尽管它们可以在某些任务上胜过人类,但即使是设计它们的研究人员也常常不了解它们如何或为什么工作得这么好。但是,如果在实验室外使用神经网络,也许可以对有助于诊断心脏病的医学图像进行分类,了解该模型的工作原理有助于研究人员预测其在实践中的表现。
麻省理工学院的研究人员现在已经开发出一种方法,可以揭示黑盒神经网络的内部工作原理。以人脑为模型,神经网络被排列成处理数据的互连节点或“神经元”层。新系统可以自动生成对这些单个神经元的描述,以英语或其他自然语言生成。
例如,在经过训练以识别图像中动物的神经网络中,他们的方法可能将某个神经元描述为检测狐狸的耳朵。与其他方法相比,他们的可扩展技术能够为单个神经元生成更准确和更具体的描述。
在新论文中,该团队表明,这种方法可用于审核神经网络以确定它学到了什么,甚至可以通过识别然后关闭无用或不正确的神经元来编辑网络。
“我们想创建一种方法,让机器学习从业者可以为这个系统提供他们的模型,它会从模型神经元的角度,用语言告诉他们它所知道的关于该模型的一切。这可以帮助您回答基本问题,“我的模型是否知道一些我没想到它会知道的东西?” 麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究生和主要作者 Evan Hernandez 说的论文。
合著者包括 CSAIL 的博士后 Sarah Schwettmann;David Bau,刚从 CSAIL 毕业的东北大学计算机科学助理教授;Teona Bagashvili,CSAIL 的前访问学生;Antonio Torralba,Delta Electronics 电气工程和计算机科学教授,CSAIL 成员;和资深作者 Jacob Andreas,CSAIL 的 X 联盟助理教授。
03 自动生成描述
大多数帮助机器学习从业者了解模型如何工作的现有技术要么描述整个神经网络,要么要求研究人员识别他们认为单个神经元可能关注的概念。
Hernandez 和他的合作者开发的系统被称为 MILAN(神经元的互信息引导语言注释),改进了这些方法,因为它不需要预先列出概念,并且可以自动生成网络中所有神经元的自然语言描述. 这一点尤其重要,因为一个神经网络可以包含数十万个单独的神经元。
MILAN 生成针对计算机视觉任务(如对象识别和图像合成)训练的神经网络中的神经元的描述。为了描述给定的神经元,系统首先检查该神经元在数千张图像上的行为,以找到该神经元最活跃的一组图像区域。接下来,它为每个神经元选择一种自然语言描述,以最大化图像区域和描述之间称为逐点互信息的量。这鼓励了描述每个神经元在更大网络中的独特作用。
“在经过训练对图像进行分类的神经网络中,将有大量不同的神经元来检测狗。但是有很多不同类型的狗和狗的很多不同部位。因此,即使“狗”可能是对许多这些神经元的准确描述,它的信息量也不是很大。我们想要对神经元正在做什么非常具体的描述。这不仅仅是狗;这是德国牧羊犬耳朵的左侧,”Hernandez说。
该团队将 MILAN 与其他模型进行了比较,发现它生成了更丰富、更准确的描述,但研究人员更感兴趣的是了解它如何帮助回答有关计算机视觉模型的特定问题。
04 分析、审查和编辑神经网络
首先,他们使用 MILAN 来分析哪些神经元在神经网络中最重要。他们为每个神经元生成描述,并根据描述中的单词对它们进行排序。他们慢慢地从网络中移除神经元,看看它的准确性如何变化,并发现在描述中包含两个非常不同的词(例如花瓶和化石)的神经元对网络不太重要。
他们还使用 MILAN 来审核模型,看看他们是否学到了一些意想不到的东西。研究人员采用在人脸模糊的数据集上训练的图像分类模型,运行 MILAN,并计算有多少神经元仍然对人脸敏感。
“以这种方式模糊面部确实减少了对面部敏感的神经元数量,但远未消除它们。事实上,我们假设其中一些面部神经元对特定的人口群体非常敏感,这非常令人惊讶。这些模型以前从未见过人脸,但它们内部却发生了各种面部处理,”Hernandez 说。
在第三个实验中,该团队使用 MILAN 通过查找和删除检测数据中不良相关性的神经元来编辑神经网络,这导致网络在表现出相关性问题的输入上的准确性提高了 5%。
虽然研究人员对 MILAN 在这三个应用程序中的表现印象深刻,但该模型有时给出的描述仍然过于模糊,或者当它不知道它应该识别的概念时会做出错误的猜测。
他们计划在未来的工作中解决这些限制。他们还希望继续增强 MILAN 能够生成的描述的丰富性。他们希望将 MILAN 应用于其他类型的神经网络,并用它来描述神经元组的作用,因为神经元协同工作以产生输出。
“这是一种自下而上的可解释性方法。目标是使用自然语言生成功能的开放式组合描述。我们希望利用人类语言的表达能力来生成对神经元所做的更自然和丰富的描述。能够将这种方法推广到不同类型的模型是我最兴奋的事情,”Schwettmann 说。
“对任何可解释人工智能技术的最终测试是它是否可以帮助研究人员和用户就何时以及如何部署人工智能系统做出更好的决策,”安德烈亚斯说。“我们距离能够以一般方式做到这一点还有很长的路要走。但我乐观地认为,米兰——以及更广泛地使用语言作为解释工具——将成为工具箱中有用的一部分。”
这项工作的部分资金来自 MIT-IBM Watson AI Lab 和 SystemsThatLearn@CSAIL 计划。