Large language models are powerful but costly. We ask whether meta-learning can make the pretraining of small language models not only better but also more interpretable. We integrate first-order MAML with subset-masked LM pretraining, producing four LLama-style decoder-only models (11M-570M params), and evaluate it on a fundamental NLP task with many settings and real-world applications. Compared with vanilla training, our model (i) reaches the same loss up to 1.6x sooner, (ii) improves F1 on multilingual Universal NER under equal compute, and (iii) makes the training dynamics easy to read: first the network's representations fan out ("diversify") and later they collapse into a smaller, shared subspace ("compress"). This two-stage shift shows up as a rise-and-fall in both effective-rank curves and attention-head entropy. The same curves pinpoint which layers specialise earliest and which later reconverge, giving a compact, interpretable signature of meta-adaptation. Code, checkpoints and WandB logs are released.


翻译:大语言模型性能强大但成本高昂。本文探讨元学习能否使小语言模型的预训练不仅效果更优,同时更具可解释性。我们将一阶MAML算法与子集掩码语言模型预训练相结合,构建了四个LLama风格的仅解码器模型(参数量1100万至5.7亿),并在具有多场景设置及实际应用的基础自然语言处理任务上开展评估。相较于基线训练方法,本模型具备以下特性:(i)以最高1.6倍的速度达到同等损失值;(ii)在相同计算资源下提升多语言通用命名实体识别的F1分数;(iii)使训练动态过程更易于解析:网络表征首先呈现发散态势(“多样化”),随后坍缩至更小的共享子空间(“压缩”)。这种两阶段转变体现为有效秩曲线与注意力头熵值的先升后降现象。通过相同曲线可精准识别各网络层的早期专业化阶段与后期再收敛过程,从而形成紧凑且可解释的元适应特征标识。相关代码、模型检查点及WandB日志均已开源。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
专知会员服务
17+阅读 · 2021年8月24日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【2022新书】Python数学逻辑,285页pdf
专知
13+阅读 · 2022年11月24日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关资讯
【2022新书】Python数学逻辑,285页pdf
专知
13+阅读 · 2022年11月24日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员