【KDD2020】通用文档预训练模型LayoutLM:文档结构信息和视觉信息进行建模,让模型在预训练阶段进行多模态对齐。

2020 年 8 月 23 日 专知


大量的研究成果表明,大规模预训练语言模型通过自监督任务,可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效的提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息。为了解决这一问题,研究员们提出了一种通用文档预训练模型LayoutLM[1][2],选择了文档结构信息(Document Layout Information)和视觉信息(Visual Information)进行建模,让模型在预训练阶段进行多模态对齐。



在实际使用的过程中,LayoutLM 仅需要极少的标注数据即可达到行业领先的水平。研究员们在三个不同类型的下游任务中进行了验证:表单理解(Form Understanding)、票据理解(Receipt Understanding),以及文档图像分类(Document Image Classification)。实验结果表明,在预训练中引入的结构和视觉信息,能够有效地迁移到下游任务中,最终在三个下游任务中都取得了显著的准确率提升。


https://www.zhuanzhi.ai/paper/d936ea435305d4f5a4835461799ea355


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“LALM” 可以获取《【KDD2020】通用文档预训练模型LayoutLM:文档结构信息和视觉信息进行建模,让模型在预训练阶段进行多模态对齐。》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

专知会员服务
19+阅读 · 2020年10月13日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
63+阅读 · 2020年8月19日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
120+阅读 · 2020年7月9日
【KDD2020-阿里】可调控的多兴趣推荐框架
专知
9+阅读 · 2020年8月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
Arxiv
4+阅读 · 2020年5月25日
VIP会员
Top
微信扫码咨询专知VIP会员