Existing benchmarks for visual document retrieval (VDR) largely overlook non-English languages and the structural complexity of official publications. To address this critical gap, we introduce SDS KoPub VDR, the first large-scale, publicly available benchmark for retrieving and understanding Korean public documents. The benchmark is built upon a corpus of 361 real-world documents (40,781 pages), including 256 files under the KOGL Type 1 license and 105 from official legal portals, capturing complex visual elements like tables, charts, and multi-column layouts. To establish a challenging and reliable evaluation set, we constructed 600 query-page-answer triples. These were initially generated using multimodal models (e.g., GPT-4o) and subsequently underwent a rigorous human verification and refinement process to ensure factual accuracy and contextual relevance. The queries span six major public domains and are systematically categorized by the reasoning modality required: text-based, visual-based (e.g., chart interpretation), and cross-modal. We evaluate SDS KoPub VDR on two complementary tasks that reflect distinct retrieval paradigms: (1) text-only retrieval, which measures a model's ability to locate relevant document pages based solely on textual signals, and (2) multimodal retrieval, which assesses retrieval performance when visual features (e.g., tables, charts, and layouts) are jointly leveraged alongside text. This dual-task evaluation reveals substantial performance gaps, particularly in multimodal scenarios requiring cross-modal reasoning, even for state-of-the-art models. As a foundational resource, SDS KoPub VDR not only enables rigorous and fine-grained evaluation across textual and multimodal retrieval tasks but also provides a clear roadmap for advancing multimodal AI in complex, real-world document intelligence.


翻译:现有的视觉文档检索(VDR)基准大多忽视了非英语语言以及官方出版物的结构复杂性。为填补这一关键空白,我们提出了SDS KoPub VDR,这是首个面向韩语公共文档检索与理解的大规模公开基准。该基准基于包含361份真实世界文档(共40,781页)的语料库构建,其中256份文件采用KOGL Type 1许可协议,105份来自官方法律门户网站,涵盖了表格、图表及多栏布局等复杂视觉元素。为建立具有挑战性且可靠的评估集,我们构建了600组查询-页面-答案三元组。这些数据最初通过多模态模型(如GPT-4o)生成,随后经过严格的人工验证与优化流程,以确保事实准确性与上下文相关性。查询涵盖六大公共领域,并根据所需推理模式进行系统分类:基于文本、基于视觉(如图表解析)以及跨模态。我们在两项反映不同检索范式的互补任务上评估SDS KoPub VDR:(1)纯文本检索,衡量模型仅基于文本信号定位相关文档页面的能力;(2)多模态检索,评估当视觉特征(如表格、图表与布局)与文本联合利用时的检索性能。这种双任务评估揭示了显著的性能差距,特别是在需要跨模态推理的多模态场景中,即使是当前最先进的模型也存在不足。作为一项基础性资源,SDS KoPub VDR不仅支持跨文本与多模态检索任务的严格细粒度评估,更为推进复杂现实场景文档智能中的多模态人工智能发展提供了清晰路线图。

0
下载
关闭预览

相关内容

基于文本的3D视觉定位综述:要素、最新进展与未来方向
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员