当前的多模态大语言模型在处理长文档理解任务时,仍面临两大根本性挑战:海量无关内容造成的信息干扰,以及基于Transformer架构的二次计算复杂度。现有方法主要分为两类:通过令牌压缩牺牲细节粒度的方法,以及引入外部检索器导致系统复杂性增加且无法端到端优化的方案。 为突破这些限制,我们通过深入分析发现:MLLMs呈现出类人的从粗到细推理模式——早期Transformer层广泛关注文档整体内容,而深层网络则聚焦于相关证据页面。基于这一发现,我们提出可以显式利用MLLMs固有的证据定位能力,在推理过程中执行检索操作,从而实现高效的长文档理解。 为此,我们提出了URaG——一个简单而有效的统一检索生成框架。该框架通过引入轻量级跨模态检索模块,将早期Transformer层转换为高效证据选择器,能够精准识别并保留最相关页面,同时过滤无关内容。这种设计使得深层网络可以集中计算资源处理关键信息,在提升准确性的同时优化计算效率。大量实验表明,URaG在实现最优性能的同时,显著降低了44%-56%的计算开销。 代码已开源:https://github.com/shi-yx/URaG

成为VIP会员查看完整内容
1

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
74+阅读 · 2020年9月25日
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
28+阅读 · 2020年5月25日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
173+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
489+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
相关论文
Arxiv
173+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
489+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员