Managing extensive context remains a critical bottleneck for Large Language Models (LLMs), particularly in applications like long-document question answering and autonomous agents where lengthy inputs incur high computational costs and introduce noise. Existing compression techniques often disrupt local coherence through discrete token removal or rely on implicit latent encoding that suffers from positional bias and incompatibility with closed-source APIs. To address these limitations, we introduce the EDU-based Context Compressor, a novel explicit compression framework designed to preserve both global structure and fine-grained details. Our approach reformulates context compression as a structure-then-select process. First, our LingoEDU transforms linear text into a structural relation tree of Elementary Discourse Units (EDUs) which are anchored strictly to source indices to eliminate hallucination. Second, a lightweight ranking module selects query-relevant sub-trees for linearization. To rigorously evaluate structural understanding, we release StructBench, a manually annotated dataset of 248 diverse documents. Empirical results demonstrate that our method achieves state-of-the-art structural prediction accuracy and significantly outperforms frontier LLMs while reducing costs. Furthermore, our structure-aware compression substantially enhances performance across downstream tasks ranging from long-context tasks to complex Deep Search scenarios.


翻译:处理长上下文仍然是大型语言模型(LLM)面临的关键瓶颈,尤其是在长文档问答和自主智能体等应用中,冗长的输入会导致高昂的计算成本并引入噪声。现有的压缩技术通常通过离散的令牌移除来破坏局部连贯性,或依赖于隐含的潜在编码,而这类编码存在位置偏差且与闭源API不兼容。为解决这些局限性,我们引入了基于基本语篇单元的上下文压缩器,这是一种新颖的显式压缩框架,旨在同时保留全局结构和细粒度细节。我们的方法将上下文压缩重新表述为一个“先结构化后选择”的过程。首先,我们的LingoEDU将线性文本转换为基本语篇单元的结构关系树,这些单元严格锚定于源文本索引以消除幻觉。其次,一个轻量级排序模块选择与查询相关的子树进行线性化。为了严格评估结构理解能力,我们发布了StructBench,这是一个包含248篇多样化文档的人工标注数据集。实证结果表明,我们的方法在结构预测准确性上达到了最先进的水平,显著优于前沿的LLM,同时降低了成本。此外,我们这种结构感知的压缩方法显著提升了从长上下文任务到复杂深度搜索场景等一系列下游任务的性能。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
16+阅读 · 2021年12月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
16+阅读 · 2021年12月25日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员