Multimodal pre-training with text, layout, and image has achieved SOTA performance for visually-rich document understanding tasks recently, which demonstrates the great potential for joint learning across different modalities. In this paper, we present LayoutXLM, a multimodal pre-trained model for multilingual document understanding, which aims to bridge the language barriers for visually-rich document understanding. To accurately evaluate LayoutXLM, we also introduce a multilingual form understanding benchmark dataset named XFUN, which includes form understanding samples in 7 languages (Chinese, Japanese, Spanish, French, Italian, German, Portuguese), and key-value pairs are manually labeled for each language. Experiment results show that the LayoutXLM model has significantly outperformed the existing SOTA cross-lingual pre-trained models on the XFUN dataset. The pre-trained LayoutXLM model and the XFUN dataset will be publicly available at https://aka.ms/layoutxlm.


翻译:最近,通过文字、布局和图像的多式培训前培训,实现了具有丰富视觉文件理解任务的SOTA业绩,这表明了在不同模式下共同学习的巨大潜力。在本文中,我们介绍了MtalXLM,这是多语种文件理解的多语种预先培训模式,旨在弥合理解高视力文件的语言障碍。为了准确评估MtalXLM,我们还引入了名为XFUN的多语种理解基准数据集,其中包括以7种语言(中文、日文、西班牙文、法文、意大利文、德文、葡萄牙文)形成理解样本,并且为每种语言手工标注了关键价值对等。实验结果表明,MtaltraXLM模型大大超过了XFUN数据集上现有的SOTA跨语言预先培训模式。预先培训的版XLM模型和XFUN数据集将在https://aka.ms/layoutxlm上公开提供。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
一文带你了解MultiBERT
深度学习自然语言处理
16+阅读 · 2020年6月28日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年6月9日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关VIP内容
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
Top
微信扫码咨询专知VIP会员