大型语言模型(LLMs)展现出了令人印象深刻的性能和惊人的涌现能力。然而,其有效性仍受限于 Transformer 架构的固定上下文窗口,这对长上下文建模带来了挑战。其中,长度泛化(length generalization)——即泛化到训练时未见过的更长序列的能力——是一个经典且基础的问题。 本文提出了一种关于长度泛化的新视角,将关注点从传统的输入特征(如位置编码或数据结构)转向模型的输出分布。具体而言,通过对合成任务的案例研究,我们强调了一个关键现象:长短对齐(long-short alignment),即模型在不同长度的序列上输出分布的一致性。我们进一步将这一洞察扩展至自然语言任务,提出了一个用于量化该现象的度量指标——长短失配(Long-Short Misalignment),并揭示该指标与长度泛化性能之间存在强相关性。 基于上述发现,我们设计了一种新的正则化项,在训练过程中促进模型的长短对齐。大量实验证明了该方法的有效性,为实现更强的长上下文建模能力提供了新的思路。

代码开源地址:https://github.com/PKU-ML/LongShortAlignment

成为VIP会员查看完整内容
0

相关内容

【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
12+阅读 · 2月21日
【ACL2024】大型语言模型的稀疏加速训练
专知会员服务
27+阅读 · 2024年6月4日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
47+阅读 · 2023年10月13日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
专知会员服务
36+阅读 · 2020年11月29日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
465+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
12+阅读 · 2月21日
【ACL2024】大型语言模型的稀疏加速训练
专知会员服务
27+阅读 · 2024年6月4日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
47+阅读 · 2023年10月13日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
专知会员服务
36+阅读 · 2020年11月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
465+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员