Pre-training techniques have been verified successfully in a variety of NLP tasks in recent years. Despite the wide spread of pre-training models for NLP applications, they almost focused on text-level manipulation, while neglecting the layout and style information that is vital for document image understanding. In this paper, we propose \textbf{LayoutLM} to jointly model the interaction between text and layout information across scanned document images, which is beneficial for a great number of real-world document image understanding tasks such as information extraction from scanned documents. We also leverage the image features to incorporate the style information of words in LayoutLM. To the best of our knowledge, this is the first time that text and layout are jointly learned in a single framework for document-level pre-training, leading to significant performance improvement in downstream tasks for document image understanding.


翻译:近年来,培训前技术在各种国家语言方案任务中都得到了成功验证。尽管国家语言方案应用程序的培训前模式分布广泛,但它们几乎侧重于文字操作,而忽略了对文件图像理解至关重要的布局和风格信息。在本文中,我们提议通过扫描文件图像,共同模拟文本和布局信息之间的互动,这有利于大量真实世界文件图像理解任务,如从扫描文件中提取信息。我们还利用图像功能将文字文字的风格信息纳入DLM。 据我们所知,这是首次在文件水平预培训单一框架内共同学习文字和布局,从而大大改进了文件图像理解下游任务的业绩。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
注意力机制模型最新综述
专知会员服务
270+阅读 · 2019年10月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年8月22日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员