多模态预训练模型指北——LayoutLM

2022 年 9 月 18 日 PaperWeekly



©PaperWeekly 原创 · 作者 | 杨希
单位 | 中国移动云能力中心
研究方向 | 自然语言处理



引子
LayoutLM 从提出到现在已经有 2 年多的时间了,多模态的文档、表单类的识别任务也逐渐走向成熟,在上一期《多模态预训练模型指北——LayoutLM(一)》笔者详细介绍了微软提出的 LayoutLMv1 以及对应的升级版 LayoutLMv2。在此基础上,本期简单的介绍一下微软在 2022 年新提出的 LayoutLMv3。
从笔者的理解来看,LayoutLMv3 [1] 更像是集成了这两年在多模态任务中非常有效的 Trick,并在文档 AI 这个领域上重新进行了试水,就发表了 v3 版本,其中参考的主要包括 BEiT [2] 、ViLT [3] 等,下面就简单介绍一下微软的 LayoutLMv3。



正文

2.1 贡献

作者认为 LayoutLMv3 的主要贡献主要在于以下几点:

1. 首次提出了一种 Document AI 领域不需要预训练 backbone(包括 CNN、Faster R-CNN)的多模态模型。

2. 提出了一种 word-patch alignment,可以用于学习文本与图像之间关联关系。

3. LayoutLMv3 可以同时适用于以文本为主的任务以及以图像为主的 Document AI 任务(一般多模态任务都会这么写,估计是为了内容更加充实而增加的贡献点)。

2.2 预期




如在 ViLT 中将现有多模态任务大致分成了四个类型,成熟的多模态模型应该是更趋向于(d)的类型。如果做一个对应的话,LayoutLMv1 属于(b),LayoutLMv2 属于(c),那么自然而然的可以想到,LayoutLMv3 更像是从(b)到(c),然后到(d)的演进。

2.3 模型

具体的,LayoutLMv3 模型主要是在图像特征表示,文本与图像联合学习上做了进一步的改进,其整体结构如下:



v3 版本,采用了更简单的图像特征输入方式,并且结合新的图像特征的输入方式设计了一种新的任务用于构建文本与图像之间信息的融合与交互。

1. 使用更简单的图像特征表示方法:

LayoutLMv3 也没有让人意外,其提出的第一个创新点就是参考 ViT [4] 中图像的编码方法。其编码方法结构非常简单,其过程大体如下:



只需要将 Patch 的像素全部拉平就可以得到对应的图像特征(特征维度为 P),为了和语义的特征对齐(比如常见的 BERT 模型,语义特征维度为 768),那么需要增加一层线性变换使得语义特征与图像特征的维度一致。

而比较有意思的是,在实际实现的时候 [5][6] ,并没有用这种拉平加线性变换的形式,而是非常取巧的使用了一个简单的二维卷积,很显然这也同样能够达到相同效果。使用该方式进行特征值的抽取,其计算复杂度要远小于基于预训练的 Faster-RCNN 等模型。



2. 使用新的文本图像的关联任务(WPA)

在多模态任务中,必然会有一个任务是可以将文本与图像产生联系的。回顾 v2 版本的模型,主要采用的方法是将通过将不同行的图像文本进行覆盖(实际覆盖的范围是一个 bbox) ,然后通过预测未覆盖文本对应的图像片段是否被覆盖来产生文本与图像的关联性。但在 v3 中所有的图像都是通过 patch 的方式直接映射为图像特征,mask 的最小单位不再是 bbox,而是 patch 本身。那么把 v2 的任务进行简单的转换,v3 版本的 WPA 就是预测未覆盖文本对应的 patch 是否被覆盖。

3. MLM && MIM
除此之外,文本与图像还分别使用了各自领域非常经典的无监督预训练任务包括 MLM(Masked Language Modeling)以及 MIM(Masked Image Modeling),其中 v2 其实也使用到了 MLM(变种),但在 v2 中文本图像是基于 bbox 一一对应的,为了避免在 mask 的时候图像泄露信息,在 v2 中对于图像特征也同步做了 mask。而 v3 文本对应的基本单位是 patch,所以不存在这样对应关系/泄露的可能性非常低,所以可以直接使用 MLM。
而 MIM 则是直接使用的 BEiT 中的 MIM 任务,通过 dVAE(discrete variational autoencoder) [2]  技术,实现图像 patch 的编码,然后对 image token 进行  mask,MIM 则是通过未被 mask 的图像来预测原先被 mask 的图像的图像编码。
2.4 实验

关于实验,作者主要在多模态任务、传统视觉任务、消融实验来证明 v3 模型的有效性,比较让人惊喜的是,还提供了对应的中文模型,以及在中文数据集上的测试验证。

LayoutLMv3 在多个多模态任务(FUNSD、CORD、RVL-CDIP、DocVQA)上进行 fine-tuning 上效果比对,其中在 FUNSD 上效果最为显著。此外,实验还从模式上对目前解决多模态表单类任务理解进行了细分的综合性比对:包括从模型的特征信息:文本(T)、Layout(L)、图像(I),以及图像的特征提取器 Faster R-CNN(R)、CNN Grid(G)、Linear Patch(P)。

2. LayoutLMv3 在传统的视觉任务(PubLayNet)上进行 fine-tuning 的效果。

3. LayoutLMv3 使用消融实验来证明 MLM、MIM、WPA 几个任务的有效性。

4. 令人比较惊喜的是,LayoutLMv3 还在中文的 EPHOIE 数据集上进行了验证,并与百度出品的 StructText [7] 进行了对比,取得了 SOTA,平均 F1 score 达到了 99.21%。




总结
LayoutLM 很好的实现了表单数据中文本与图像特征的融合,擅长于处理各种表单的扫描件(财务报表、电子发票、审计报表等等)。虽然从创意的角度上不能说  v3 版本的模型具备什么颠覆性的创新,但是从实际使用的角度来说,剔除了  Faster R-CNN 这类图像的特征抽取网络之后,其性能更上了一个层级,理论上和  BERT 的性能可以基本达到一个水准,这也是非常有意义的。
除此之外,作者在未来的工作里面也提到了,在工业界使用的话基于 few-shot/zero-shot 表单信息抽取将会是一个非常有意思的课题。

参考文献

[1] Huang Y, Lv T, Cui L, et al. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking[J]. arXiv preprint arXiv:2204.08387, 2022.

[2] Bao H, Dong L, Wei F. Beit: Bert pre-training of image transformers[J]. arXiv preprint arXiv:2106.08254, 2021.

[3] Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision[C]//International Conference on Machine Learning. PMLR, 2021: 5583-5594.

[4] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[5] https://juejin.cn/post/7081894732233719822

[6] https://github.com/microsoft/unilm/blob/master/layoutlmv3/layoutlmft/models/layoutlmv3/modeling_layoutlmv3.py

[7] Li Y, Qian Y, Yu Y, et al. StrucTexT: Structured text understanding with multi-modal Transformers[C]//Proceedings of the 29th ACM International Conference on Multimedia. 2021: 1912-1920.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

·
·

登录查看更多
1

相关内容

ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
专知会员服务
32+阅读 · 2022年3月24日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
37+阅读 · 2021年5月28日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
专知会员服务
65+阅读 · 2021年3月21日
多模态预训练模型综述
极市平台
7+阅读 · 2022年1月15日
用多模态信息做 prompt,解锁 GPT 新玩法
夕小瑶的卖萌屋
1+阅读 · 2021年10月18日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
概览CVPR 2018神经网络图像压缩领域进展
论智
13+阅读 · 2018年6月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
16+阅读 · 2021年11月27日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
专知会员服务
32+阅读 · 2022年3月24日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
37+阅读 · 2021年5月28日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
专知会员服务
65+阅读 · 2021年3月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员