Some neurons in deep networks specialize in recognizing highly specific perceptual, structural, or semantic features of inputs. In computer vision, techniques exist for identifying neurons that respond to individual concept categories like colors, textures, and object classes. But these techniques are limited in scope, labeling only a small subset of neurons and behaviors in any network. Is a richer characterization of neuron-level computation possible? We introduce a procedure (called MILAN, for mutual-information-guided linguistic annotation of neurons) that automatically labels neurons with open-ended, compositional, natural language descriptions. Given a neuron, MILAN generates a description by searching for a natural language string that maximizes pointwise mutual information with the image regions in which the neuron is active. MILAN produces fine-grained descriptions that capture categorical, relational, and logical structure in learned features. These descriptions obtain high agreement with human-generated feature descriptions across a diverse set of model architectures and tasks, and can aid in understanding and controlling learned models. We highlight three applications of natural language neuron descriptions. First, we use MILAN for analysis, characterizing the distribution and importance of neurons selective for attribute, category, and relational information in vision models. Second, we use MILAN for auditing, surfacing neurons sensitive to protected categories like race and gender in models trained on datasets intended to obscure these features. Finally, we use MILAN for editing, improving robustness in an image classifier by deleting neurons sensitive to text features spuriously correlated with class labels.
翻译:深度网络中的某些神经元专门识别高度具体的概念性、 结构性或语义性投入特征。 在计算机愿景中,存在识别神经元的技术,这些神经元符合不同概念类别,如颜色、质谱和对象类。 但是这些技术的范围有限,只标注一个神经元和任何网络中的行为的一小部分。 神经级计算是否具有更丰富的特征? 我们引入了一个程序( 称为MILAN, 用于对神经元进行相互信息引导的语言说明), 自动标注神经元, 并配有开放、 构成性、 自然语言描述。 在神经系中, MILAN通过搜索自然语言字符串来生成一个描述, 与神经系活跃的图像区域尽可能地共享点信息。 MILAN 生成精细的描述, 能捕捉到直截性、 关联性和逻辑性计算。 这些描述与人类生成的特征描述高度一致, 可以帮助理解和控制各种模型。 我们强调自然语言神经级描述的三个应用。 首先,我们使用经过训练的智能级的直观性语言特性, 用于分析, MILAN 的精细度 的直观性 和直观性 的直观性 数据分布分析, 的直观性分析, 的直观分配, 和直观性 的直观性 使用这些直观性 的直观性 的直观分析, 的直观分析, 用于 的直观 的直观性 的直观性 的直观 等等等等等级 等级 等 用于 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 等级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级