【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。 - 专知VIP

会员服务 ·

4

预训练模型 · 多模态 · KDD 2020 · LayoutLM ·

2020 年 8 月 23 日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大量的研究成果表明，大规模预训练语言模型通过自监督任务，可在预训练阶段有效捕捉文本中蕴含的语义信息，经过下游任务微调后能有效的提升模型效果。然而，现有的预训练语言模型主要针对文本单一模态进行，忽视了文档本身与文本天然对齐的视觉结构信息。为了解决这一问题，研究员们提出了一种通用文档预训练模型LayoutLM[1][2]，选择了文档结构信息（Document Layout Information）和视觉信息（Visual Information）进行建模，让模型在预训练阶段进行多模态对齐。

在实际使用的过程中，LayoutLM 仅需要极少的标注数据即可达到行业领先的水平。研究员们在三个不同类型的下游任务中进行了验证：表单理解（Form Understanding）、票据理解（Receipt Understanding），以及文档图像分类（Document Image Classification）。实验结果表明，在预训练中引入的结构和视觉信息，能够有效地迁移到下游任务中，最终在三个下游任务中都取得了显著的准确率提升。

成为VIP会员查看完整内容

32

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

【KDD2020】图模型信息融合

专知会员服务

39+阅读 · 2020年10月15日

【EMNLP2020】低资源域适应的多阶段预训练

专知会员服务

19+阅读 · 2020年10月13日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知

78+阅读 · 2019年4月16日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

AI科技评论

4+阅读 · 2019年3月17日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

哪种词向量模型更胜一筹？Word2Vec，WordRank or FastText?

哪种词向量模型更胜一筹？Word2Vec，WordRank or FastText?

全球人工智能

8+阅读 · 2017年10月17日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection

Arxiv

4+阅读 · 2020年2月13日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Viewpoint Estimation-Insights & Model

Viewpoint Estimation-Insights & Model

Arxiv

3+阅读 · 2018年7月3日

Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering

Arxiv

5+阅读 · 2018年4月9日

Weakly Supervised Object Detection with Pointwise Mutual Information

Arxiv

5+阅读 · 2018年1月26日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

Improving Visually Grounded Sentence Representations with Self-Attention

Arxiv

8+阅读 · 2017年12月2日

VIP会员

相关主题

预训练模型

相关VIP内容

【KDD2020】图模型信息融合

专知会员服务

39+阅读 · 2020年10月15日

【EMNLP2020】低资源域适应的多阶段预训练

专知会员服务

19+阅读 · 2020年10月13日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知

78+阅读 · 2019年4月16日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

AI科技评论

4+阅读 · 2019年3月17日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

哪种词向量模型更胜一筹？Word2Vec，WordRank or FastText?

哪种词向量模型更胜一筹？Word2Vec，WordRank or FastText?

全球人工智能

8+阅读 · 2017年10月17日

相关论文

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection

Arxiv

4+阅读 · 2020年2月13日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Viewpoint Estimation-Insights & Model

Viewpoint Estimation-Insights & Model

Arxiv

3+阅读 · 2018年7月3日

Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering

Arxiv

5+阅读 · 2018年4月9日

Weakly Supervised Object Detection with Pointwise Mutual Information

Arxiv

5+阅读 · 2018年1月26日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

Improving Visually Grounded Sentence Representations with Self-Attention

Arxiv

8+阅读 · 2017年12月2日

微信扫码咨询专知VIP会员