Mechanistic interpretability aims to understand neural networks by identifying which learned features mediate specific behaviors. Attribution graphs reveal these feature pathways, but interpreting them requires extensive manual analysis -- a single prompt can take approximately 2 hours for an experienced circuit tracer. We present probe prompting, an automated pipeline that transforms attribution graphs into compact, interpretable subgraphs built from concept-aligned supernodes. Starting from a seed prompt and target logit, we select high-influence features, generate concept-targeted yet context-varying probes, and group features by cross-prompt activation signatures into Semantic, Relationship, and Say-X categories using transparent decision rules. Across five prompts including classic "capitals" circuits, probe-prompted subgraphs preserve high explanatory coverage while compressing complexity (Completeness 0.83, mean across circuits; Replacement 0.54). Compared to geometric clustering baselines, concept-aligned groups exhibit higher behavioral coherence: 2.3x higher peak-token consistency (0.425 vs 0.183) and 5.8x higher activation-pattern similarity (0.762 vs 0.130), despite lower geometric compactness. Entity-swap tests reveal a layerwise hierarchy: early-layer features transfer robustly (64% transfer rate, mean layer 6.3), while late-layer Say-X features specialize for output promotion (mean layer 16.4), supporting a backbone-and-specialization view of transformer computation. We release code (https://github.com/peppinob-ol/attribution-graph-probing), an interactive demo (https://huggingface.co/spaces/Peppinob/attribution-graph-probing), and minimal artifacts enabling immediate reproduction and community adoption.


翻译:机制可解释性旨在通过识别哪些学习到的特征介导特定行为来理解神经网络。归因图揭示了这些特征路径,但解释它们需要大量的人工分析——对于经验丰富的电路追踪者,单个提示可能需要约2小时。我们提出了探针提示,这是一种自动化流程,可将归因图转化为由概念对齐超节点构建的紧凑、可解释的子图。从种子提示和目标逻辑单元出发,我们选择高影响力特征,生成概念导向但上下文变化的探针,并使用透明决策规则,通过跨提示激活特征将特征分组为语义类、关系类和Say-X类。在包括经典“首都”电路在内的五个提示中,探针提示生成的子图在压缩复杂度的同时保持了高解释覆盖率(完整性0.83,各电路平均值;替换率0.54)。与几何聚类基线相比,概念对齐组表现出更高的行为一致性:峰值标记一致性提高2.3倍(0.425 vs 0.183),激活模式相似性提高5.8倍(0.762 vs 0.130),尽管几何紧密度较低。实体替换测试揭示了层间层次结构:早期层特征具有鲁棒的迁移性(迁移率64%,平均层6.3),而后期层Say-X特征专门用于输出提升(平均层16.4),这支持了Transformer计算的主干-专业化视图。我们发布了代码(https://github.com/peppinob-ol/attribution-graph-probing)、交互式演示(https://huggingface.co/spaces/Peppinob/attribution-graph-probing)以及最小化工件,以支持即时复现和社区采用。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员