The impressive performance of VLMs is largely measured on benchmarks that fail to capture the complexities of real-world scenarios. Existing datasets for tabular QA, such as WikiTableQuestions and FinQA, are overwhelmingly monolingual (English) and present tables in a digitally perfect, clean format. This creates a significant gap between research and practice. To address this, we present \textbf{MirageTVQA}, a new benchmark designed to evaluate VLMs on these exact dimensions. Featuring nearly 60,000 QA pairs across 24 languages, MirageTVQA challenges models with tables that are not only multilingual but also visually imperfect, incorporating realistic noise to mimic scanned documents. Our evaluation of the leading VLMs reveals two primary failure points: a severe degradation in performance (over 35\% drop for the best models) when faced with visual noise and a consistent English-first bias where reasoning abilities fail to transfer to other languages. MirageTVQA provides a benchmark for measuring and driving progress towards more robust VLM models for table reasoning. The dataset and the code are available at: https://github.com/anshulsc/MirageTVQA.


翻译:视觉语言模型(VLMs)令人瞩目的性能主要是在未能捕捉真实场景复杂性的基准测试上衡量的。现有的表格问答数据集,如WikiTableQuestions和FinQA,绝大多数为单语(英语)且以数字完美、整洁的格式呈现表格。这在研究与实践之间造成了显著差距。为解决这一问题,我们提出了**MirageTVQA**,这是一个旨在从这些维度评估VLMs的新基准。MirageTVQA包含近60,000个问答对,覆盖24种语言,其挑战不仅在于表格的多语言性,还在于视觉上的不完美性,通过融入模拟扫描文档的真实噪声来增强真实性。我们对领先VLMs的评估揭示了两个主要失效点:面对视觉噪声时性能严重下降(最佳模型下降超过35%),以及持续存在的英语优先偏见,即推理能力无法有效迁移到其他语言。MirageTVQA为衡量和推动更鲁棒的表格推理VLM模型提供了基准。数据集和代码可在以下网址获取:https://github.com/anshulsc/MirageTVQA。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员