随着语言模型(LM)在处理表格数据能力方面的显著进步,尤其是通过程序辅助机制来操控和分析表格数据,其推理能力得到了显著提升。然而,这些方法通常需要将整个表格作为输入,这导致了由于位置偏差或上下文长度限制而产生的可扩展性问题。为应对这些挑战,我们引入了 TableRAG,这是一个专门设计用于基于LM的表格理解的检索增强生成(Retrieval-Augmented Generation, RAG)框架。TableRAG 利用查询扩展结合模式和单元检索,以在提供给语言模型之前精确定位关键信息。这种方法实现了更高效的数据编码和精准的检索,显著缩短了提示长度并减轻了信息损失。

为全面评估 TableRAG 在大规模应用中的有效性,我们基于 Arcade 和 BIRD-SQL 数据集开发了两个新的百万标记基准测试。我们的结果表明,TableRAG 的检索设计实现了最高的检索质量,并在大规模表格理解任务上达到了最新的技术水平。

成为VIP会员查看完整内容
35

相关内容

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
42+阅读 · 1月24日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
13+阅读 · 2022年12月12日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
专知会员服务
21+阅读 · 2021年10月8日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
404+阅读 · 2023年3月31日
Arxiv
67+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员