Charts are a powerful tool for visually conveying complex data, but their comprehension poses a challenge due to the diverse chart types and intricate components. Existing chart comprehension methods suffer from either heuristic rules or an over-reliance on OCR systems, resulting in suboptimal performance. To address these issues, we present ChartReader, a unified framework that seamlessly integrates chart derendering and comprehension tasks. Our approach includes a transformer-based chart component detection module and an extended pre-trained vision-language model for chart-to-X tasks. By learning the rules of charts automatically from annotated datasets, our approach eliminates the need for manual rule-making, reducing effort and enhancing accuracy.~We also introduce a data variable replacement technique and extend the input and position embeddings of the pre-trained model for cross-task training. We evaluate ChartReader on Chart-to-Table, ChartQA, and Chart-to-Text tasks, demonstrating its superiority over existing methods. Our proposed framework can significantly reduce the manual effort involved in chart analysis, providing a step towards a universal chart understanding model. Moreover, our approach offers opportunities for plug-and-play integration with mainstream LLMs such as T5 and TaPas, extending their capability to chart comprehension tasks. The code is available at https://github.com/zhiqic/ChartReader.


翻译:图表是传达复杂数据的强大工具,但它们的理解由于不同类型和复杂的构成部分而存在挑战。现有的图表理解方法要么受启发式规则的制约,要么过度依赖OCR系统,导致效果不佳。为解决这些问题,我们提出了ChartReader,一个无缝集成图表去渲染和理解任务的统一框架。我们的方法包括基于transformer的图表组件检测模块和一个扩展的基于预训练的视觉-语言模型,用于将图表转换为文本任务。通过从注释数据集中自动学习图表规则,我们的方法消除了手动制定规则的需求,减少了工作量并提高了准确性。我们还介绍了一种数据变量替换技术,并扩展了预训练模型的输入和位置嵌入,进行跨任务训练。我们在Chart-to-Table、ChartQA和Chart-to-Text任务上评估了ChartReader,证明了其优于现有方法。我们提出的框架可以显著减少图表分析中的手动工作量,是迈向一个通用图表理解模型的一步。此外,我们的方法为主流LLM(如T5和TaPas)提供了即插即用的整合机会,扩展了它们对图表理解任务的能力。代码可在https://github.com/zhiqic/ChartReader获取。

0
下载
关闭预览

相关内容

【KDD2022】基于知识增强提示学习的统一会话推荐系统
专知会员服务
29+阅读 · 2022年6月26日
Artificial Intelligence: Ready to Ride the Wave? BCG 28页PPT
专知会员服务
27+阅读 · 2022年2月20日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
42+阅读 · 2020年9月7日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Understanding HTML with Large Language Models
Arxiv
0+阅读 · 2023年5月19日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关VIP内容
【KDD2022】基于知识增强提示学习的统一会话推荐系统
专知会员服务
29+阅读 · 2022年6月26日
Artificial Intelligence: Ready to Ride the Wave? BCG 28页PPT
专知会员服务
27+阅读 · 2022年2月20日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
42+阅读 · 2020年9月7日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员