Document parsing is a core task in document intelligence, supporting applications such as information extraction, retrieval-augmented generation, and automated document analysis. However, real-world documents often feature complex layouts with multi-level tables, embedded images or formulas, and cross-page structures, which remain challenging for existing OCR systems. We introduce MonkeyOCR v1.5, a unified vision-language framework that enhances both layout understanding and content recognition through a two-stage parsing pipeline. The first stage employs a large multimodal model to jointly predict document layout and reading order, leveraging visual information to ensure structural and sequential consistency. The second stage performs localized recognition of text, formulas, and tables within detected regions, maintaining high visual fidelity while reducing error propagation. To address complex table structures, we propose a visual consistency-based reinforcement learning scheme that evaluates recognition quality via render-and-compare alignment, improving structural accuracy without manual annotations. Additionally, two specialized modules, Image-Decoupled Table Parsing and Type-Guided Table Merging, are introduced to enable reliable parsing of tables containing embedded images and reconstruction of tables crossing pages or columns. Comprehensive experiments on OmniDocBench v1.5 demonstrate that MonkeyOCR v1.5 achieves state-of-the-art performance, outperforming PPOCR-VL and MinerU 2.5 while showing exceptional robustness in visually complex document scenarios.


翻译:文档解析是文档智能领域的核心任务,支撑着信息抽取、检索增强生成和自动化文档分析等应用。然而,现实世界的文档通常具有复杂的版面布局,包含多级表格、嵌入式图像或公式以及跨页结构,这对现有的OCR系统仍构成挑战。我们提出了MonkeyOCR v1.5,这是一个统一的视觉-语言框架,通过两阶段解析流程增强了版面理解和内容识别能力。第一阶段采用大型多模态模型联合预测文档布局和阅读顺序,利用视觉信息确保结构和顺序的一致性。第二阶段在检测到的区域内对文本、公式和表格进行局部化识别,在保持高视觉保真度的同时减少错误传播。针对复杂表格结构,我们提出了一种基于视觉一致性的强化学习方案,通过渲染-比较对齐来评估识别质量,从而在无需人工标注的情况下提高结构准确性。此外,引入了两个专门模块——图像解耦表格解析和类型引导表格合并——以实现对包含嵌入式图像的表格进行可靠解析,以及重建跨页或跨列的表格。在OmniDocBench v1.5上的综合实验表明,MonkeyOCR v1.5实现了最先进的性能,超越了PPOCR-VL和MinerU 2.5,并在视觉复杂的文档场景中展现出卓越的鲁棒性。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
【NeurIPS2019】图变换网络:Graph Transformer Network
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员