We propose a novel framework to evaluate the robustness of transformer-based form field extraction methods via form attacks. We introduce 14 novel form transformations to evaluate the vulnerability of the state-of-the-art field extractors against form attacks from both OCR level and form level, including OCR location/order rearrangement, form background manipulation and form field-value augmentation. We conduct robustness evaluation using real invoices and receipts, and perform comprehensive research analysis. Experimental results suggest that the evaluated models are very susceptible to form perturbations such as the variation of field-values (~15% drop in F1 score), the disarrangement of input text order(~15% drop in F1 score) and the disruption of the neighboring words of field-values(~10% drop in F1 score). Guided by the analysis, we make recommendations to improve the design of field extractors and the process of data collection.


翻译:我们提出一个新的框架,以评价以变压器为基础的以形式为基础的实地抽取方法通过形式攻击的稳健性。我们引入了14种新形式变换,以评价最先进的实地抽取器在从OCR级别和形式级别(包括OCR位置/顺序重新安排、背景操作和外地价值增殖形式)受到形式攻击的脆弱性。我们利用真实的发票和收据进行稳健性评价,并进行全面的研究分析。实验结果表明,经评估的模型非常容易形成干扰,例如外地价值的变化(F1分下降15%)、输入文本顺序脱序(F1分下降15%)和外地价值相邻词的中断(F1分下降10% ) 。根据分析,我们提出了改进外地提取器设计和数据收集过程的建议。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年7月10日
专知会员服务
15+阅读 · 2021年6月6日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
专知会员服务
25+阅读 · 2021年1月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
18+阅读 · 2019年10月9日
细粒度情感分析任务(ABSA)的最新进展
PaperWeekly
18+阅读 · 2020年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
3+阅读 · 2021年10月14日
VIP会员
相关资讯
细粒度情感分析任务(ABSA)的最新进展
PaperWeekly
18+阅读 · 2020年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员