Table structure recognition is a crucial part of document image analysis domain. Its difficulty lies in the need to parse the physical coordinates and logical indices of each cell at the same time. However, the existing methods are difficult to achieve both these goals, especially when the table splitting lines are blurred or tilted. In this paper, we propose an accurate and end-to-end transformer-based table structure recognition method, referred to as TRUST. Transformers are suitable for table structure recognition because of their global computations, perfect memory, and parallel computation. By introducing novel Transformer-based Query-based Splitting Module and Vertex-based Merging Module, the table structure recognition problem is decoupled into two joint optimization sub-tasks: multi-oriented table row/column splitting and table grid merging. The Query-based Splitting Module learns strong context information from long dependencies via Transformer networks, accurately predicts the multi-oriented table row/column separators, and obtains the basic grids of the table accordingly. The Vertex-based Merging Module is capable of aggregating local contextual information between adjacent basic grids, providing the ability to merge basic girds that belong to the same spanning cell accurately. We conduct experiments on several popular benchmarks including PubTabNet and SynthTable, our method achieves new state-of-the-art results. In particular, TRUST runs at 10 FPS on PubTabNet, surpassing the previous methods by a large margin.
翻译:表格结构识别是文档图像分析域的关键部分。 其困难在于需要同时分析每个单元格的物理坐标和逻辑指数。 但是, 现有的方法很难实现这两个目标, 特别是当表格分割线模糊或倾斜时。 在本文中, 我们提出一个精确和端到端的基于表格结构的变压器结构识别方法, 称为 Trust。 变换器适合表格结构识别, 因为它们的全球计算、 完美的内存和平行计算。 通过引入新的基于变换器的基于查询的分解模块和基于 Vertex 的合并模块, 表格结构识别问题将分解成两个联合优化子任务: 多方向的表格行/ 栏分割和表格网格合并。 基于查询的变换模块通过变换网络的网络从长期依赖中学习强有力的背景信息, 准确预测多方向的表格行/ 校列的分隔器, 并相应地获取表格的基本电网格。 基于 Vertex 的变换模块, 提供基于 Vertex 质 的软盘 边际 模块, 能够将 本地 基础 的 方法 整合, 将 我们 的 的 的 的 基 的 矩阵 和 将 的 的 基 的 矩阵 进行 的 进行 的 的 的 的 和 的 的 的 的 的 的 和 的 的 等式 的 的 的 的 基式 基 基 的 的 的 基 基 基 基 的 的 的 的 的 的 的 的 的 的 的 的 基 的 的 的 的 的 的 的 的 的 基 的 的 的 的 的 的 的 的 的 的 的 的 基 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的