Natural language processing for document scans and PDFs has the potential to enormously improve the efficiency of business processes. Layout-aware word embeddings such as LayoutLM have shown promise for classification of and information extraction from such documents. This paper proposes a new pre-training task called that can improve performance of layout-aware word embeddings that incorporate 2-D position embeddings. We compare models pre-trained with only language masking against models pre-trained with both language masking and position masking, and we find that position masking improves performance by over 5% on a form understanding task.


翻译:用于文件扫描和PDF的自然语言处理有可能极大地提高业务流程的效率。 诸如布局LM(LM)这样的布局认知字嵌入显示对此类文件进行分类和信息提取的希望。本文建议一项新的培训前任务,即改进包含二维位置嵌入的布局认知字嵌入的性能。我们比较了经过预先培训的模型,仅使用语言遮盖,与预先培训的带有语言遮掩和位置遮掩的模型相比,我们发现,在形式理解任务上,遮掩功能提高了5%以上。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年8月17日
专知会员服务
6+阅读 · 2021年8月7日
专知会员服务
36+阅读 · 2021年5月15日
注意力机制综述
专知会员服务
82+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
0+阅读 · 2021年10月22日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
3+阅读 · 2019年8月19日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员