Interpretability methods for large language models (LLMs) typically derive directions from textual supervision, which can lack external grounding. We propose using human brain activity not as a training signal but as a coordinate system for reading and steering LLM states. Using the SMN4Lang MEG dataset, we construct a word-level brain atlas of phase-locking value (PLV) patterns and extract latent axes via ICA. We validate axes with independent lexica and NER-based labels (POS/log-frequency used as sanity checks), then train lightweight adapters that map LLM hidden states to these brain axes without fine-tuning the LLM. Steering along the resulting brain-derived directions yields a robust lexical (frequency-linked) axis in a mid TinyLlama layer, surviving perplexity-matched controls, and a brain-vs-text probe comparison shows larger log-frequency shifts (relative to the text probe) with lower perplexity for the brain axis. A function/content axis (axis 13) shows consistent steering in TinyLlama, Qwen2-0.5B, and GPT-2, with PPL-matched text-level corroboration. Layer-4 effects in TinyLlama are large but inconsistent, so we treat them as secondary (Appendix). Axis structure is stable when the atlas is rebuilt without GPT embedding-change features or with word2vec embeddings (|r|=0.64-0.95 across matched axes), reducing circularity concerns. Exploratory fMRI anchoring suggests potential alignment for embedding change and log frequency, but effects are sensitive to hemodynamic modeling assumptions and are treated as population-level evidence only. These results support a new interface: neurophysiology-grounded axes provide interpretable and controllable handles for LLM behavior.


翻译:大型语言模型(LLM)的可解释性方法通常从文本监督中推导方向,这种方法可能缺乏外部基础。我们提出利用人脑活动并非作为训练信号,而是作为解读与调控LLM状态的坐标系。基于SMN4Lang脑磁图数据集,我们构建了相位锁定值(PLV)模式的词级脑图谱,并通过独立成分分析(ICA)提取潜在轴。我们使用独立词典和基于命名实体识别(NER)的标签(以词性标注/对数词频作为验证基准)验证这些轴,随后训练轻量级适配器,在不微调LLM的情况下将LLM隐藏状态映射到这些脑轴上。沿脑推导方向的调控在TinyLlama中间层产生了一个稳健的词汇(词频关联)轴,该结果在困惑度匹配的对照组中依然显著;脑轴与文本探针的对比显示,脑轴在更低困惑度下实现了更大的对数词频偏移(相对于文本探针)。功能/内容轴(第13轴)在TinyLlama、Qwen2-0.5B和GPT-2中均表现出一致的调控效果,并得到困惑度匹配的文本层面佐证。TinyLlama第4层的影响显著但不稳定,因此我们将其视为次要发现(见附录)。当图谱重建时排除GPT嵌入变化特征或使用word2vec嵌入,轴结构保持稳定(匹配轴间|r|=0.64-0.95),降低了循环论证的担忧。探索性功能磁共振成像锚定表明嵌入变化与对数词频可能存在对应关系,但该效应对血流动力学建模假设敏感,仅作为群体层面证据。这些结果支持一种新范式:基于神经生理学的轴为LLM行为提供了可解释且可控的调控接口。

0
下载
关闭预览

相关内容

【ICML2024】揭示大脑中视觉-语言整合的多模态网络
专知会员服务
29+阅读 · 2024年6月21日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员