GPT-2中的通用神经元：涌现、持久性与功能影响 (Universal Neurons in GPT-2: Emergence, Persistence, and Functional Impact) - 专知论文

会员服务 ·

0

神经元 · GPT-2 · 分析 · 检查点 · 词元 ·

Universal Neurons in GPT-2: Emergence, Persistence, and Functional Impact

翻译：GPT-2中的通用神经元：涌现、持久性与功能影响

Advey Nandan,Cheng-Ting Chou,Amrit Kurakula,Cole Blondin,Kevin Zhu,Vasu Sharma,Sean O'Brien

We investigate the phenomenon of neuron universality in independently trained GPT-2 Small models, examining these universal neurons-neurons with consistently correlated activations across models-emerge and evolve throughout training. By analyzing five GPT-2 models at five checkpoints, we identify universal neurons through pairwise correlation analysis of activations over a dataset of 5 million tokens. Ablation experiments reveal significant functional impacts of universal neurons on model predictions, measured via cross entropy loss. Additionally, we quantify neuron persistence, demonstrating high stability of universal neurons across training checkpoints, particularly in early and deeper layers. These findings suggest stable and universal representational structures emerge during language model training.

翻译：本研究探究了在独立训练的GPT-2 Small模型中神经元通用性的现象，考察了这些通用神经元——即在不同模型间激活模式持续相关的神经元——在训练过程中的涌现与演化。通过分析五个GPT-2模型在五个训练检查点的数据，我们基于对500万词元数据集的激活值进行成对相关性分析，识别出通用神经元。消融实验揭示了通用神经元对模型预测的显著功能影响，该影响通过交叉熵损失进行量化。此外，我们量化了神经元的持久性，证明通用神经元在训练检查点间具有高度稳定性，尤其在早期层和深层网络中表现突出。这些发现表明，在语言模型训练过程中会涌现出稳定且通用的表征结构。

0

相关内容

神经元

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

46+阅读 · 11月21日

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

专知会员服务

19+阅读 · 2024年10月13日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【ICML2020-斯坦福Facebook-何恺明】神经网络图结构，Graph Structure of Neural Networks

【ICML2020-斯坦福Facebook-何恺明】神经网络图结构，Graph Structure of Neural Networks

专知会员服务

57+阅读 · 2020年7月14日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

无网格DEM构建方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

服务性企业员工正面心理资本、敬业程度和工作绩效的动态关系——基于双人组层面的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Orexin/OX1R激动FOXO1/Atg7干预胰岛β细胞自噬的机制及其在胰岛功能缺陷中的意义

国家自然科学基金

0+阅读 · 2014年12月31日

Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning

Arxiv

0+阅读 · 12月17日

Stabilising Learner Trajectories: A Doubly Robust Evaluation of AI-Guided Student Support using Activity Theory

Arxiv

0+阅读 · 12月11日

Joint Progression Modeling (JPM): A Probabilistic Framework for Mixed-Pathology Progression

Arxiv

0+阅读 · 12月3日

Limitations of Scalarisation in MORL: A Comparative Study in Discrete Environments

Arxiv

0+阅读 · 11月20日

Energy Consumption of Dataframe Libraries for End-to-End Deep Learning Pipelines:A Comparative Analysis

Arxiv

0+阅读 · 11月17日

VIP会员

文章信息

相关主题

相关VIP内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

46+阅读 · 11月21日

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

专知会员服务

19+阅读 · 2024年10月13日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【ICML2020-斯坦福Facebook-何恺明】神经网络图结构，Graph Structure of Neural Networks

【ICML2020-斯坦福Facebook-何恺明】神经网络图结构，Graph Structure of Neural Networks

专知会员服务

57+阅读 · 2020年7月14日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关资讯

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

相关论文

Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning

Arxiv

0+阅读 · 12月17日

Stabilising Learner Trajectories: A Doubly Robust Evaluation of AI-Guided Student Support using Activity Theory

Arxiv

0+阅读 · 12月11日

Joint Progression Modeling (JPM): A Probabilistic Framework for Mixed-Pathology Progression

Arxiv

0+阅读 · 12月3日

Limitations of Scalarisation in MORL: A Comparative Study in Discrete Environments

Arxiv

0+阅读 · 11月20日

Energy Consumption of Dataframe Libraries for End-to-End Deep Learning Pipelines:A Comparative Analysis

Arxiv

0+阅读 · 11月17日

相关基金

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

无网格DEM构建方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

服务性企业员工正面心理资本、敬业程度和工作绩效的动态关系——基于双人组层面的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Orexin/OX1R激动FOXO1/Atg7干预胰岛β细胞自噬的机制及其在胰岛功能缺陷中的意义

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员