【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解 - 专知VIP

会员服务 ·

19

TableRAG · NeurIPS 2024 · 表格理解 · 大语言模型 ·

2024 年 10 月 8 日

【NeurIPS2024】TableRAG：基于语言模型的百万标记表格理解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着语言模型（LM）在处理表格数据能力方面的显著进步，尤其是通过程序辅助机制来操控和分析表格数据，其推理能力得到了显著提升。然而，这些方法通常需要将整个表格作为输入，这导致了由于位置偏差或上下文长度限制而产生的可扩展性问题。为应对这些挑战，我们引入了 TableRAG，这是一个专门设计用于基于LM的表格理解的检索增强生成（Retrieval-Augmented Generation, RAG）框架。TableRAG 利用查询扩展结合模式和单元检索，以在提供给语言模型之前精确定位关键信息。这种方法实现了更高效的数据编码和精准的检索，显著缩短了提示长度并减轻了信息损失。

为全面评估 TableRAG 在大规模应用中的有效性，我们基于 Arcade 和 BIRD-SQL 数据集开发了两个新的百万标记基准测试。我们的结果表明，TableRAG 的检索设计实现了最高的检索质量，并在大规模表格理解任务上达到了最新的技术水平。

成为VIP会员查看完整内容

37

相关内容

TableRAG

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

14+阅读 · 2024年5月18日

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

专知会员服务

17+阅读 · 2024年5月16日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

84+阅读 · 2024年5月3日

【AAAI2024】基于对比上下文学习的自定义语言模型响应

【AAAI2024】基于对比上下文学习的自定义语言模型响应

专知会员服务

26+阅读 · 2024年2月1日

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理

专知会员服务

45+阅读 · 2024年1月24日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

专知会员服务

29+阅读 · 2022年8月12日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【NeurIPS2021】模型可解释性的符号语言基础

专知会员服务

22+阅读 · 2021年10月8日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Semiparametric inference for impulse response functions using double/debiased machine learning

Arxiv

1+阅读 · 2024年11月15日

Towards efficient compression and communication for prototype-based decentralized learning

Arxiv

0+阅读 · 2024年11月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

VIP会员

相关主题

大语言模型

相关VIP内容

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

【CVPR2024】SHiNe：用于开放词汇目标检测的语义层次枢纽

专知会员服务

14+阅读 · 2024年5月18日

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

专知会员服务

17+阅读 · 2024年5月16日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

84+阅读 · 2024年5月3日

【AAAI2024】基于对比上下文学习的自定义语言模型响应

【AAAI2024】基于对比上下文学习的自定义语言模型响应

专知会员服务

26+阅读 · 2024年2月1日

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理

专知会员服务

45+阅读 · 2024年1月24日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

专知会员服务

29+阅读 · 2022年8月12日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【NeurIPS2021】模型可解释性的符号语言基础

专知会员服务

22+阅读 · 2021年10月8日

热门VIP内容

开通专知VIP会员享更多权益服务

数据驱动死亡：以色列AI战争机器如何锁定目标

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

ICML 2025 | BiAssemble: 双臂机器人几何拼合问题的协同可供性学习

ICML 2025杰出论文出炉：8篇获奖，南大研究者榜上有名

相关资讯

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

Semiparametric inference for impulse response functions using double/debiased machine learning

Arxiv

1+阅读 · 2024年11月15日

Towards efficient compression and communication for prototype-based decentralized learning

Arxiv

0+阅读 · 2024年11月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员