LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制 - 专知VIP

会员服务 ·

0

ICML 2025 · LaCache · 上下文建模 · 大语言模型 ·

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，大语言模型（LLMs）的快速发展推动了对多种应用的关注，这些应用依赖于强大的长程建模能力，以便处理大规模输入上下文并持续生成较长的输出。随着序列长度的增加，LLM中的键值对（Key-Value, KV）数量也随之增长，形成了严重的效率瓶颈。

本文提出了一种全新的 KV 缓存优化范式——LaCache，这是一种无需训练、用于提升 LLM 生成推理效率与精度的方法。LaCache 使 LLM 能够同时应对长程建模中的两大关键挑战：增强的长程建模能力以及在不触发内存溢出（OOM）的前提下实现持续生成。具体而言，LaCache 包含两项核心创新：

梯状 KV 缓存结构（ladder-shaped KV cache pattern）：该结构不仅在每一层内部按照顺序（从左至右）存储 KV 对，还在不同层之间（从浅层到深层）进行跨层存储，在固定的存储预算下扩大了可建模的依赖范围，从而显著提升了长程建模能力； 1. 迭代压缩机制（iterative compaction mechanism）：该机制能够逐步压缩旧的缓存内容，为新生成的 token 腾出空间。这种基于 token 距离的动态压缩方式，使得在缓存空间受限的情况下实现更高效的持续生成成为可能。

我们在多个任务、基准测试和不同 LLM 模型上进行了实证研究，结果一致验证了 LaCache 在增强大语言模型长程能力方面的有效性。我们的代码开源于：https://github.com/GATECHEIC/LaCache

成为VIP会员查看完整内容

0

相关内容

ICML 2025

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

专知会员服务

8+阅读 · 4月17日

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

专知会员服务

27+阅读 · 2024年12月22日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

41+阅读 · 2024年12月1日

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

专知会员服务

19+阅读 · 2024年10月13日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索

专知会员服务

18+阅读 · 2024年6月25日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

84+阅读 · 2024年5月3日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

94+阅读 · 2023年8月31日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

22+阅读 · 2023年5月10日

【AAAI2022】基于变分信息瓶颈的图结构学习

【AAAI2022】基于变分信息瓶颈的图结构学习

专知会员服务

20+阅读 · 2021年12月18日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【NeurIPS 2020】通过双向传播的可扩展图神经网络

【NeurIPS 2020】通过双向传播的可扩展图神经网络

专知

12+阅读 · 2020年11月3日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

CVPR 2019：精确目标检测的不确定边界框回归

CVPR 2019：精确目标检测的不确定边界框回归

AI科技评论

13+阅读 · 2019年9月16日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

上下文建模

大语言模型

相关VIP内容

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

专知会员服务

8+阅读 · 4月17日

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

专知会员服务

27+阅读 · 2024年12月22日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

41+阅读 · 2024年12月1日

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

【NeurIPS 2024】基于大型语言模型的三层学习用于时间序列OOD泛化

专知会员服务

19+阅读 · 2024年10月13日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索

专知会员服务

18+阅读 · 2024年6月25日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

84+阅读 · 2024年5月3日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

94+阅读 · 2023年8月31日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

22+阅读 · 2023年5月10日

【AAAI2022】基于变分信息瓶颈的图结构学习

【AAAI2022】基于变分信息瓶颈的图结构学习

专知会员服务

20+阅读 · 2021年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

联邦图学习的全面数据中心化综述

基于脉冲神经网络的边缘智能

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

【CMU博士论文】可解释的图与时间序列挖掘：算法与应用

相关资讯

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【NeurIPS 2020】通过双向传播的可扩展图神经网络

【NeurIPS 2020】通过双向传播的可扩展图神经网络

专知

12+阅读 · 2020年11月3日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

CVPR 2019：精确目标检测的不确定边界框回归

CVPR 2019：精确目标检测的不确定边界框回归

AI科技评论

13+阅读 · 2019年9月16日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员