视觉信息提取(VIE)在文档智能领域中扮演着重要角色。通常,它可以分为两个任务:语义实体识别(SER)和关系抽取(RE)。最近,针对文档的预训练模型在 VIE 方面取得了显著进展,特别是在 SER 领域。然而,大多数现有模型以隐式方式学习几何表示,这对 RE 任务来说被认为是不够的,因为几何信息对 RE 尤为关键。此外,我们发现限制 RE 性能的另一个因素在于预训练阶段与 RE 微调阶段之间的目标差距。为了解决这些问题,我们在本文中提出了一种用于 VIE 的多模态框架,名为 GeoLayoutLM。GeoLayoutLM 在预训练阶段显式地对几何关系进行建模,我们称之为几何预训练。几何预训练通过三个专门设计的与几何相关的预训练任务来实现。此外,我们精心设计了新颖的关系头,这些关系头通过几何预训练任务进行预训练,并针对 RE 进行微调,以丰富和增强特征表示。根据对标准 VIE 基准的广泛实验,GeoLayoutLM 在 SER 任务中获得了非常具有竞争力的分数,并在 RE 任务中显著优于先前的最先进方法(例如,RE 在 FUNSD 上的 F1 分数从 80.35% 提高到 89.45%)。
https://www.zhuanzhi.ai/paper/ae145d71d4b8a928e02dd161f0f851db