Multimodal pre-training with text, layout, and image has achieved SOTA performance for visually-rich document understanding tasks recently, which demonstrates the great potential for joint learning across different modalities. In this paper, we present LayoutXLM, a multimodal pre-trained model for multilingual document understanding, which aims to bridge the language barriers for visually-rich document understanding. To accurately evaluate LayoutXLM, we also introduce a multilingual form understanding benchmark dataset named XFUND, which includes form understanding samples in 7 languages (Chinese, Japanese, Spanish, French, Italian, German, Portuguese), and key-value pairs are manually labeled for each language. Experiment results show that the LayoutXLM model has significantly outperformed the existing SOTA cross-lingual pre-trained models on the XFUND dataset. The pre-trained LayoutXLM model and the XFUND dataset are publicly available at https://aka.ms/layoutxlm.


翻译:最近,通过文字、布局和图像的多式培训前培训,实现了具有丰富视觉文件理解任务的SOTA业绩,这表明了在不同模式下共同学习的巨大潜力。在本文中,我们介绍了MtalXLM,这是多语种文件理解的多语种预先培训模式,旨在弥合理解高视力文件的语言障碍。为了准确评估MtalXLM,我们还引入了一个多语种理解基准数据集,名为XFUND, 其中包括以7种语言(中文、日文、西班牙文、法文、意大利文、德文、葡萄牙文)形成理解样本,关键价值对每种语言都有手工标签。实验结果显示,MtaltraXLM模式大大超过了现有的SOTA跨语言预先培训模式。预先培训的TAPXLM模型和XFUND数据集可在https://aka.ms/layoutxlm上公开查阅。

0
下载
关闭预览

相关内容

【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
站在BERT肩膀上的NLP新秀们(PART I)
AINLP
30+阅读 · 2019年6月4日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
12+阅读 · 2019年2月28日
VIP会员
Top
微信扫码咨询专知VIP会员