Structured data extraction from tables plays a crucial role in document image analysis for scanned documents and digital archives. Although many methods have been proposed to detect table structures and extract cell contents, accurately identifying table segment boundaries (rows and columns) remains challenging, particularly in low-resolution or noisy images. In many real-world scenarios, table data are incomplete or degraded, limiting the adaptability of transformer-based methods to noisy inputs. Mask-based edge detection techniques have shown greater robustness under such conditions, as their sensitivity can be adjusted through threshold tuning; however, existing approaches typically apply masks directly to images, leading to noise sensitivity, resolution loss, or high computational cost. This paper proposes a novel multi-scale signal-processing method for detecting table edges from table masks. Row and column transitions are modeled as one-dimensional signals and processed using Gaussian convolution with progressively increasing variances, followed by statistical thresholding to suppress noise while preserving stable structural edges. Detected signal peaks are mapped back to image coordinates to obtain accurate segment boundaries. Experimental results show that applying the proposed approach to column edge detection improves Cell-Aware Segmentation Accuracy (CASA) a layout-aware metric evaluating both textual correctness and correct cell placement from 67% to 76% on the PubLayNet-1M benchmark when using TableNet with PyTesseract OCR. The method is robust to resolution variations through zero-padding and scaling strategies and produces optimized structured tabular outputs suitable for downstream analysis.


翻译:表格结构化数据提取在扫描文档与数字档案的文档图像分析中具有关键作用。尽管已有多种方法被提出用于检测表格结构并提取单元格内容,但准确识别表格分割边界(行与列)仍具挑战性,尤其在低分辨率或含噪声图像中。许多实际场景中的表格数据存在不完整或退化现象,限制了基于Transformer的方法对噪声输入的适应性。基于掩码的边缘检测技术在此类条件下展现出更强的鲁棒性,其检测灵敏度可通过阈值调整进行调节;然而现有方法通常直接将掩码应用于图像,导致噪声敏感、分辨率损失或计算成本高昂。本文提出一种新颖的多尺度信号处理方法,用于从表格掩码中检测表格边缘。将行与列转换建模为一维信号,采用方差逐步递增的高斯卷积进行处理,随后通过统计阈值抑制噪声并保留稳定的结构边缘。检测到的信号峰值被映射回图像坐标,以获得精确的分割边界。实验结果表明:在PubLayNet-1M基准测试中,将本方法应用于列边缘检测时,使用TableNet与PyTesseract OCR的组合,可将兼顾文本正确性与单元格定位准确性的布局感知指标——单元格感知分割精度(CASA)从67%提升至76%。该方法通过零填充与缩放策略对分辨率变化具有鲁棒性,并能生成适用于下游分析的优化结构化表格输出。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员