【ICML2025】大语言模型中有效长上下文建模的长短对齐方法 - 专知VIP

会员服务 ·

0

ICML 2025 · 大语言模型 · 长上下文建模 ·

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大型语言模型（LLMs）展现出了令人印象深刻的性能和惊人的涌现能力。然而，其有效性仍受限于 Transformer 架构的固定上下文窗口，这对长上下文建模带来了挑战。其中，长度泛化（length generalization）——即泛化到训练时未见过的更长序列的能力——是一个经典且基础的问题。本文提出了一种关于长度泛化的新视角，将关注点从传统的输入特征（如位置编码或数据结构）转向模型的输出分布。具体而言，通过对合成任务的案例研究，我们强调了一个关键现象：长短对齐（long-short alignment），即模型在不同长度的序列上输出分布的一致性。我们进一步将这一洞察扩展至自然语言任务，提出了一个用于量化该现象的度量指标——长短失配（Long-Short Misalignment），并揭示该指标与长度泛化性能之间存在强相关性。基于上述发现，我们设计了一种新的正则化项，在训练过程中促进模型的长短对齐。大量实验证明了该方法的有效性，为实现更强的长上下文建模能力提供了新的思路。

代码开源地址：https://github.com/PKU-ML/LongShortAlignment

成为VIP会员查看完整内容

0

相关内容

ICML 2025

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

13+阅读 · 4月18日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

12+阅读 · 2月21日

【KDD2025】大语言模型与小型推荐模型在设备-云推荐中的协同

【KDD2025】大语言模型与小型推荐模型在设备-云推荐中的协同

专知会员服务

16+阅读 · 1月17日

【ACL2024】大型语言模型的稀疏加速训练

【ACL2024】大型语言模型的稀疏加速训练

专知会员服务

27+阅读 · 2024年6月4日

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

66+阅读 · 2023年10月14日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

16+阅读 · 2021年8月13日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

99+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

211+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

465+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

大语言模型

长上下文建模

相关VIP内容

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

13+阅读 · 4月18日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

12+阅读 · 2月21日

【KDD2025】大语言模型与小型推荐模型在设备-云推荐中的协同

【KDD2025】大语言模型与小型推荐模型在设备-云推荐中的协同

专知会员服务

16+阅读 · 1月17日

【ACL2024】大型语言模型的稀疏加速训练

【ACL2024】大型语言模型的稀疏加速训练

专知会员服务

27+阅读 · 2024年6月4日

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

66+阅读 · 2023年10月14日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

16+阅读 · 2021年8月13日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【博士论文】神经网络中的元学习与组合泛化

核电人形机器人专题报告：工业应用场景巡礼

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

相关基金

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

99+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

211+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

465+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员