【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

在工业、研究和公共部门，信息通常存储为已呈现的文档（例如PDF文件、扫描件）。因此，为了实现下游任务，需要系统将这些呈现的文档映射到具有层次结构的文本文档上。用于此任务的现代光学字符识别（OCR）系统通常基于解析层次文档结构和文本识别的两个单独阶段。由于一系列的挑战，之前缺少对文档完整层次结构的整体、原则性的推断方法。一个主要的挑战是由结构解析任务的复杂性给出的，该任务包括检测所有语义文档实体（例如，表格、文本和图形）以及描述它们的层次嵌套和阅读顺序的实体之间的关系。此外，系统组件中不连续的设置和使用启发式方法妨碍了在实际场景中的训练、应用和适应。另外，为基于学习的系统注解训练样本非常耗时且昂贵。在这篇论文中，我们通过构建可扩展的系统来解决这些问题，这些系统允许统一的端到端文档解析和光学字符识别。具体来说，这篇论文提供了以下贡献：

DocParser：一个端到端的系统，用于解析文档中的(i)实体（例如，图形、文本块、页眉）和(ii)捕获实体之间的序列和嵌套结构的关系。此外，我们提供了一个免费可访问的数据集，用于评估层次文档结构解析。最后，我们为域特定数据稀缺的设置提供了一个可扩展的学习框架。我们使用一种新的弱监督方法来解决这个问题，该方法显著提高了文档结构解析的性能。
文档结构生成器(DSG)：一个全新的文档解析系统，可以完全从端到端训练。之前的文档结构解析系统受到启发式方法的限制，不能从端到端训练。DSG的端到端训练使其对实际应用非常有效和灵活。此外，我们的DSG使用hOCR标记语言生成结构化的文档输出文件，允许无缝集成到现有的文档存储和处理工作流程中。我们还贡献了一个新的、大规模的、公开可用的数据集，名为E-Periodica，其中包含具有复杂文档结构的实际杂志，用于评估。我们的结果表明，我们的DSG在层次文档解析任务上达到了最先进的性能。据我们所知，我们的DSG系统是第一个用于层次文档解析的端到端可训练系统。
LayTr：一个基于transformer的系统，用于联合结构解析和文本识别。现代最先进的OCR系统仍然在很大程度上依赖于解析文档结构和识别文本的单独处理阶段。这在当前的端到端OCR系统中导致了几个限制。必须单独训练和适应各个组件，端到端系统评估具有挑战性，且在两个阶段都不能共同使用结构和语言信息进行有效的文本识别和错误缓解。LayTr可以完全从端到端训练，直接从具有复杂布局的文档图像预测标记的文本。我们采用专门为端到端OCR任务量身定做的评估，并显示我们的系统在基准数据集上超越了最先进的商业和开源系统的性能。