Benchmark datasets for table structure recognition (TSR) must be carefully processed to ensure they are annotated consistently. However, even if a dataset's annotations are self-consistent, there may be significant inconsistency across datasets, which can harm the performance of models trained and evaluated on them. In this work, we show that aligning these benchmarks$\unicode{x2014}$removing both errors and inconsistency between them$\unicode{x2014}$improves model performance significantly. We demonstrate this through a data-centric approach where we adopt a single model architecture, the Table Transformer (TATR), that we hold fixed throughout. Baseline exact match accuracy for TATR evaluated on the ICDAR-2013 benchmark is 65% when trained on PubTables-1M, 42% when trained on FinTabNet, and 69% combined. After reducing annotation mistakes and inter-dataset inconsistency, performance of TATR evaluated on ICDAR-2013 increases substantially to 75% when trained on PubTables-1M, 65% when trained on FinTabNet, and 81% combined. We show through ablations over the modification steps that canonicalization of the table annotations has a significantly positive effect on performance, while other choices balance necessary trade-offs that arise when deciding a benchmark dataset's final composition. Overall we believe our work has significant implications for benchmark design for TSR and potentially other tasks as well. All dataset processing and training code will be released.
翻译:表格结构识别( TSR) 的基准数据集必须仔细处理, 以确保它们具有一致的注释性。 但是, 即使数据集的注释是自成一体的, 数据集之间也可能存在很大的不一致, 这可能会损害经过培训和评估模型的性能。 在这项工作中, 我们显示这些基准$\ unicode{x2014} 的匹配, 两者之间有误差和不一致之处。 我们通过一种以数据为中心的方法来显示这一点, 我们采用了一个单一的模型结构, 即我们始终保持固定的表变换器( TATTR ) 。 以 ICD- 2013 基准评估的TATR 基准的基线精确匹配率在普布表-1M 培训时为65%, 在FinTabNet 培训时为42%, 69% 合并为69% 。 在减少注释错误和内部不一致之后, 在ICDAR- 2013 模型评估的TATR 的性能表现将大幅提高到75% 。 在FinTABNet 网络 培训时, 65% 和 T81 最终 联合 培训中, 我们通过基准化 的 显示TATR 性 性 性 设计 显著的进度影响 。 在确定 贸易 平衡 中 中, 我们 所需的 步骤, 在确定 其它 的进度 的进度 上的所有, 在确定 基准 的 步骤 上, 我们 上, 在确定 其他, 在确定 其他 的 的 的 的 的 的 基准 的 的 的 上 上 的, 通过, 在确定性 调整 的 的 的 的 的 的 的 上 上 上 上 。</s>