【ICLR 2022】揭开机器学习系统的神秘面纱，用自然语言自动描述单个神经元在神经网络中的作用——MIT学者为你解读，Natural Language Descriptions of Deep Visual Features

来源| 麻省理工学院
编辑| 专知翻译整理

揭开机器学习系统的神秘面纱

麻省理工学院的研究人员创造了一种技术，可以用自然语言自动描述单个神经元在神经网络中的作用。

01 研究成果在顶级会议【ICLR 2022】发表

标题 Natural Language Descriptions of Deep Visual Features

作者 Evan Hernandez, Sarah Schwettmann, David Bau, Teona Bagashvili, Antonio Torralba, Jacob Andreas

摘要深度网络中的一些神经元专门识别输入的高度特定的感知、结构或语义特征。在计算机视觉中，存在用于识别对颜色、纹理和对象类别等单个概念类别作出反应的神经元的技术。但是这些技术的范围有限，只能标记任何网络中的一小部分神经元和行为。是否有可能对神经元级计算进行更丰富的表征？我们引入了一个程序（称为 MILAN，用于神经元的互信息引导语言注释），该程序使用开放式、组合式自然语言描述自动标记神经元。给定一个神经元，MILAN 通过搜索一个自然语言字符串来生成一个描述，该字符串使与神经元处于活动状态的图像区域的逐点互信息最大化。MILAN 生成细粒度的描述，捕捉学习特征中的分类、关系和逻辑结构。这些描述在各种模型架构和任务中与人工生成的特征描述高度一致，有助于理解和控制学习模型。我们重点介绍自然语言神经元描述的三种应用。首先，我们使用 MILAN 进行分析，表征视觉模型中对属性、类别和关系信息有选择性的神经元的分布和重要性。其次，我们使用 MILAN 进行审计，在旨在掩盖这些特征的数据集上训练的模型中显示对受保护类别（如种族和性别）敏感的神经元。最后，我们使用 MILAN 进行编辑。

02 成果解读

神经网络有时被称为黑盒，因为尽管它们可以在某些任务上胜过人类，但即使是设计它们的研究人员也常常不了解它们如何或为什么工作得这么好。但是，如果在实验室外使用神经网络，也许可以对有助于诊断心脏病的医学图像进行分类，了解该模型的工作原理有助于研究人员预测其在实践中的表现。

麻省理工学院的研究人员现在已经开发出一种方法，可以揭示黑盒神经网络的内部工作原理。以人脑为模型，神经网络被排列成处理数据的互连节点或“神经元”层。新系统可以自动生成对这些单个神经元的描述，以英语或其他自然语言生成。

例如，在经过训练以识别图像中动物的神经网络中，他们的方法可能将某个神经元描述为检测狐狸的耳朵。与其他方法相比，他们的可扩展技术能够为单个神经元生成更准确和更具体的描述。

在新论文中，该团队表明，这种方法可用于审核神经网络以确定它学到了什么，甚至可以通过识别然后关闭无用或不正确的神经元来编辑网络。

“我们想创建一种方法，让机器学习从业者可以为这个系统提供他们的模型，它会从模型神经元的角度，用语言告诉他们它所知道的关于该模型的一切。这可以帮助您回答基本问题，“我的模型是否知道一些我没想到它会知道的东西？” 麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究生和主要作者 Evan Hernandez 说的论文。

合著者包括 CSAIL 的博士后 Sarah Schwettmann；David Bau，刚从 CSAIL 毕业的东北大学计算机科学助理教授；Teona Bagashvili，CSAIL 的前访问学生；Antonio Torralba，Delta Electronics 电气工程和计算机科学教授，CSAIL 成员；和资深作者 Jacob Andreas，CSAIL 的 X 联盟助理教授。

03 自动生成描述

大多数帮助机器学习从业者了解模型如何工作的现有技术要么描述整个神经网络，要么要求研究人员识别他们认为单个神经元可能关注的概念。

Hernandez 和他的合作者开发的系统被称为 MILAN（神经元的互信息引导语言注释），改进了这些方法，因为它不需要预先列出概念，并且可以自动生成网络中所有神经元的自然语言描述. 这一点尤其重要，因为一个神经网络可以包含数十万个单独的神经元。

MILAN 生成针对计算机视觉任务（如对象识别和图像合成）训练的神经网络中的神经元的描述。为了描述给定的神经元，系统首先检查该神经元在数千张图像上的行为，以找到该神经元最活跃的一组图像区域。接下来，它为每个神经元选择一种自然语言描述，以最大化图像区域和描述之间称为逐点互信息的量。这鼓励了描述每个神经元在更大网络中的独特作用。

“在经过训练对图像进行分类的神经网络中，将有大量不同的神经元来检测狗。但是有很多不同类型的狗和狗的很多不同部位。因此，即使“狗”可能是对许多这些神经元的准确描述，它的信息量也不是很大。我们想要对神经元正在做什么非常具体的描述。这不仅仅是狗；这是德国牧羊犬耳朵的左侧，”Hernandez说。

该团队将 MILAN 与其他模型进行了比较，发现它生成了更丰富、更准确的描述，但研究人员更感兴趣的是了解它如何帮助回答有关计算机视觉模型的特定问题。

04 分析、审查和编辑神经网络

首先，他们使用 MILAN 来分析哪些神经元在神经网络中最重要。他们为每个神经元生成描述，并根据描述中的单词对它们进行排序。他们慢慢地从网络中移除神经元，看看它的准确性如何变化，并发现在描述中包含两个非常不同的词（例如花瓶和化石）的神经元对网络不太重要。

他们还使用 MILAN 来审核模型，看看他们是否学到了一些意想不到的东西。研究人员采用在人脸模糊的数据集上训练的图像分类模型，运行 MILAN，并计算有多少神经元仍然对人脸敏感。

“以这种方式模糊面部确实减少了对面部敏感的神经元数量，但远未消除它们。事实上，我们假设其中一些面部神经元对特定的人口群体非常敏感，这非常令人惊讶。这些模型以前从未见过人脸，但它们内部却发生了各种面部处理，”Hernandez 说。

在第三个实验中，该团队使用 MILAN 通过查找和删除检测数据中不良相关性的神经元来编辑神经网络，这导致网络在表现出相关性问题的输入上的准确性提高了 5%。

虽然研究人员对 MILAN 在这三个应用程序中的表现印象深刻，但该模型有时给出的描述仍然过于模糊，或者当它不知道它应该识别的概念时会做出错误的猜测。

他们计划在未来的工作中解决这些限制。他们还希望继续增强 MILAN 能够生成的描述的丰富性。他们希望将 MILAN 应用于其他类型的神经网络，并用它来描述神经元组的作用，因为神经元协同工作以产生输出。

“这是一种自下而上的可解释性方法。目标是使用自然语言生成功能的开放式组合描述。我们希望利用人类语言的表达能力来生成对神经元所做的更自然和丰富的描述。能够将这种方法推广到不同类型的模型是我最兴奋的事情，”Schwettmann 说。

“对任何可解释人工智能技术的最终测试是它是否可以帮助研究人员和用户就何时以及如何部署人工智能系统做出更好的决策，”安德烈亚斯说。“我们距离能够以一般方式做到这一点还有很长的路要走。但我乐观地认为，米兰——以及更广泛地使用语言作为解释工具——将成为工具箱中有用的一部分。”

这项工作的部分资金来自 MIT-IBM Watson AI Lab 和 SystemsThatLearn@CSAIL 计划。

成为VIP会员查看完整内容

相关内容

ICLR 2022

关注 2

ICLR 2022 放出了本届会议的论文接收结果：共有 54 篇 Oral（口头报告）论文和 176 篇 Spolight 论文，论文接收总数 1095 篇，最终投稿量 3391 篇，论文接收率 32.3%。

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

【哥伦比亚大学】复杂网络深度表示的几何和拓扑推理，Geometric and Topological Inference for Deep Representations of Complex Networks

专知会员服务

22+阅读 · 2022年3月11日

计算机视觉和人类视觉有更多的共同点？MIT研究人员解读【周边视觉对机器的好处】

专知会员服务

21+阅读 · 2022年3月7日

【Nvidia干货书】实战深度学习: 使用TensorFlow实践神经网络、计算机视觉、自然语言处理和Transformers

专知会员服务

64+阅读 · 2021年10月26日

【Nature通讯】深度神经网络模型中的个体差异

专知会员服务

14+阅读 · 2020年11月16日

【MIT】理解深度学习网络里单个神经元的作用

专知会员服务

29+阅读 · 2020年9月12日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

51+阅读 · 2020年5月26日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

专知会员服务

54+阅读 · 2019年11月16日

深度学习模型模拟大脑地形图，有助于回答大脑不同部分如何协同工作

机器之心

1+阅读 · 2022年2月21日

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

新智元

0+阅读 · 2021年12月6日

大脑的学习方式如何，机器学习与生物学习的联系将提供「答案」

机器之心

0+阅读 · 2021年12月5日

Facebook创造了两个会交流的神经网络来描述颜色，竟和人类语言惊人相似

新智元

0+阅读 · 2021年3月30日

揭开GANs的神秘面纱

机器学习算法与Python学习

10+阅读 · 2019年2月27日

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

史上最全！27种神经网络简明图解：模型那么多，我该怎么选？

大数据文摘

18+阅读 · 2018年1月23日

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

视感知模型脉冲耦合神经网络的图像特征提取及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

成年灵长类大脑侧脑室下层新生神经元的类型及分子特征

国家自然科学基金

0+阅读 · 2013年12月31日

组合测试用例的生成及演化技术

国家自然科学基金

1+阅读 · 2013年12月31日

整合自上而下和自下而上处理机制的场景解析

国家自然科学基金

0+阅读 · 2013年12月31日

miR-9和miR-124在神经元发育过程中协同作用的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Spiking神经网络学习算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于机构组成原理的公差自动建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

灌注微生物反应器扩增培养ADSCs在缺血性脑梗死动物模型中的功能性神经网络构建

国家自然科学基金

0+阅读 · 2011年12月31日

人工脑具有期望容错域的联想记忆新神经网络模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships

Arxiv

0+阅读 · 2022年4月19日

Natural Language Descriptions of Deep Visual Features

Arxiv

0+阅读 · 2022年4月18日

Pathologies of Pre-trained Language Models in Few-shot Fine-tuning

Arxiv

1+阅读 · 2022年4月17日

Nonlinear Reduced DNN Models for State Estimation

Arxiv

0+阅读 · 2022年4月16日

Network-Aware 5G Edge Computing for Object Detection: Augmenting Wearables to "See" More, Farther and Faster

Arxiv

0+阅读 · 2022年4月15日

Feature Compression for Rate Constrained Object Detection on the Edge

Arxiv

0+阅读 · 2022年4月15日

A Survey of Natural Language Generation

Arxiv

15+阅读 · 2021年12月22日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

A Survey of the State of Explainable AI for Natural Language Processing

Arxiv

26+阅读 · 2020年10月1日

VIP会员