文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。

文档智能(DocumentAI,orDocumentIntelligence)是近年来一项蓬勃发展的研究课题,同时也 是实际的工业界需求,主要是指对于网页、数字文档 或扫描文档所包含的文本以及丰富的排版格式等信 息,通过人工智能技术进行理解、分类、提取以及信 息归纳的过程。由于布局和格式的多样性、低质量 的扫描文档图像以及模板结构的复杂性,文档智能 成为一项非常具有挑战性的任务并获得相关领域的 广泛关注。随着数字化进程的加快,文档、图像等载 体的结构化分析和内容提取成为关乎企业数字化转 型成败的关键一环,自动、精准、快速的信息处理对 于生产力的提升至关重要。以商业文档为例,不仅 包含了公司内外部事务的处理细节和知识沉淀,还 有大量行业相关的实体和数字信息。人工提取这些 信息不仅耗时、费力、精度低,而且可复用性也不高, 因此,文档智能技术应运而生。文档智能技术深层 次地结合了人工智能和人类智能,在金融、医疗、保 险、能源、物流等多个行业均有不同类型的应用。例 如,在金融领域,其可以实现财报分析和智能决策分 析,为企业战略的制定和投资决策提供科学、系统的 数据支撑;在医疗领域,其可以实现病例的数字化, 提高诊断的精准度,并通过分析医学文献和病例的 关联性,定位潜在的治疗方案。在财务领域,其可以 实现发票和采购单的自动化信息提取,将大量非结 构化文档进行自动结构化转换,并支撑大量下游业务场景,节省大量人工处理时间开销。

在过去的30年中, 文档智能的发展大致经历了三个阶段, 从简单的规则启发式方法逐渐进化至神经网络的方法。20世纪90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分 析,通过人工观察文档的布局信息,总结归纳一些处 理规则,对固定布局信息的文档进行处理。然而,传 统基于规则的方法往往需要较大的人力成本,而且 这些人工总结的规则可扩展性不强,因此研究人员 开始采用基于统计学习的方法。2000年以来,随着 机器学习技术的发展和进步,基于大规模标注数据 驱动的机器学习模型成了文档智能的主流方法,它 通过人工设计的特征模板,利用有监督学习的方式 在标注数据中学习不同特征的权重,以此来理解、分 析文档的内容和布局。然而,虽然传统的文档理解 和分析技术基于人工定制的规则或少量标注数据进 行学习,这些方法虽然能够带来一定程度的性能提 升,但由于定制规则和可学习的样本数量不足,其通 用性往往不尽如人意,而且针对不同类别文档的分 析迁移成本较高,这距离文档智能技术的实用化和 产业化还有相当一段距离。近年来,随着深度学习 技术的发展,以及大量无标注电子文档的积累,文档 分析与识别技术进入了一个全新的时代。图1是在 当前深度学习框架下文档智能技术的基本框架,其 中不同 类 型 的 文 档 通 过 内 容 提 取 工 具 (HTML/ XML抽取、PDF解析器、光学字符识别 OCR 等)将 文本内容、位置布局信息和视觉图像信息组织起来, 利用大规模预训练的深度神经网络进行分析,最终 完成各项下游应用任务,包括文档版面分析、文档信 息抽取、文档视觉问答以及文档图像分类等。深度 学习技术的出现,特别是以卷积神经网络(CNN)、 图神经网络(GNN)以及 Transformer架构[1]为代 表预训练技术的出现,彻底改变了传统机器学习需 要大量人工标注数据的前提,更多地依赖大量无标 注数据进行自监督学习,进而通过“预训练-微调”模 式来解决文档智能相关的应用任务,取得了显著性 突破。

尽管深度学习极大地提高了文档智能技术的准 确性,但是在实际应用中仍然有很多问题亟待解决。 首先,受限于当前大规模预训练模型输入长度的限 制,文档智能预训练模型通常需要将文档截断为几 个部分,分别输入模型进行处理,这对于复杂长文档 的多页跨页处理带来了极大的挑战。其次,由于实 际场景中的扫描文档图像质量参差不齐,特别是人 工标注的训练数据往往质量较高,而业务场景的文 档图像由于扫描设备的清晰度、纸张褶皱和摆放位 置的随意性,导致了性能不佳,因而需要利用更多数 据增强技术来帮助现有模型提升性能。此外,当前 文档智能各项任务通常是独立训练的,不同任务之 间的关联性还未被有效地利用。例如,文档信息抽 取和文档视觉问答有某些共性的语义表示,可以利 用多任务学习框架更好地解决这类问题。最后,基 于预训练的文档智能模型在实际应用中也遇到了计 算资源和训练样本不足的问题,探索基于小模型的 深度学习 架 构 和 模 型 压 缩 技 术,以 及 少 样 本 学 习 (Few-shot Learning)和 零 样 本 学 习 (Zero-shot Learning)技术也是当前重要的研究方向,并具有很 大的实用价值。

接下来,我们首先将介绍当前主流的文档智能 模型框架、任务和数据集,随后将分别重点介绍早期 基于启发式规则的文档分析技术、基于传统统计机器学习的算法模型,以及近年来基于深度学习,特别 是基于多模态预训练技术的文档智能模型和算法, 最后我们将展望文档智能技术的未来发展方向。

1 主流文档智能模型框架、任务及数据集

**1.1 基于卷积神经网络的文档版面分析模型 **

近年来,卷积神经网络在计算机视觉领域取得了 巨大的成功,特别是基于大规模标注数据集ImageNet 和 COCO 的有监督预训练模型 ResNet [2]在图像分 类、物体检测以及场景分割任务上都带来了极大的 性能提升。具体来讲,随着多阶段检测模型 Faster R-CNN [3]和 MaskR-CNN [4]等以及单阶段检测模 型SSD [5]和 YOLO [6]的普及,目标检测在计算机视 觉中几乎成了已解决问题。文档版面分析本质上可 以看作一种文档图像的物体检测任务,文档中的标 题、段落、表格、插图等基本单元就是需要检测和识 别的物体。

1.2 基于图神经网络的文档信息抽取模型

信息抽取是从非结构化文本中提取结构化信息 的过程,其作为一个经典和基础的自然语言处理问 题已经得到广泛研究。传统的信息抽取聚焦于如何 从纯文本中提取实体与关系信息,却较少对视觉富 文本进行研究。视觉富文本数据是指语义结构不仅 由本文内容决定,也有与排版、表格结构、字体等视 觉元素有关的文本数据。视觉富文本数据在生活中 随处可见,例如,收据、证件、保险单等。

1.3 基于Transformer结构的通用文档理解预训练模型

很多情况下,文档中文字的位置关系蕴含着丰 富的语义信息。例如,表单通常是以键值对(KeyvaluePair)的形式展示的。通常情况下,键值对的 排布通常是左右或者上下形式,并且有特殊的类型 关系。类似地,在表格文档中,表格中的文字通常是 网格状排列,并且表头一般出现在第一列或第一行。 通过预训练,这些与文本天然对齐的位置信息可以 为下游的信息抽取任务提供更丰富的语义信息。对 于富文本文档,除了文字本身的位置关系之外,文字 格式所呈现的视觉信息同样可以帮助下游任务。对 文本级(Token-level)任务来说,文字大小、是否倾 斜、是否加粗,以及字体等富文本格式能够体现相应 的语义。通常来说,表单键值对的键位(Key)通常 会以加粗的形式给出。对于一般文档来说,文章的 标题通常会放大加粗呈现、特殊概念名词会以斜体 呈现等。对文档级(Document-level)任务来说,整 体的文档图像能提供全局的结构信息,例如,个人简 历的整体文档结构与科学文献的文档结构是有明显 的视觉差异的。这些模态对齐的富文本格式所展现 的视觉特征可以通过视觉模型抽取,结合到预训练 阶段,从而有效地帮助下游任务。

2 基于启发式规则的文档分析技术

基于启发式规则的文档分析技术大致可分为自 顶向下、自底向上和混合模式三种方式。自顶向下 方式将文档图片作为整体逐步将其划分为不同区 域,以递归方式进行切割,直至区域分割至预定义的 标准,通常为块或列。自底向上以像素或组件为基 本元素单位,对基本元素进行分组、合并以形成更大 的同质区域。自顶向下方式在特定格式下的文档中 能够更快、更高效地分析文档。而自底向上方式虽 需要耗费更多的计算时间,但通用性更强,可覆盖更多不同布局类型的文档。混合方式则将其两者相结 合以尝试产生更好的效果。 本节从自顶向下和自底向上两种角度出发,介 绍 基 于 Projection Profile、ImageSmearing、ConnectedComponents等方式的文档分析技术。

3 基于统计机器学习的文档分析技术

传统的文档分析过程通常分为两阶段:①将文 档图片切割,得到多个不同候选区域;②对区域进行 属性分类,将其判别为文本、图像等规定类。基于机 器学习的方法也通常从这两个角度入手,部分研究 工作尝试使用机器学习算法参与文档的切割,其余 则尝试在已生成的区域上构造特征,使用机器学习 算法对区域进行分类。此外,由于统计机器学习技术带来的性能上的提升,较多基于统计机器学习的 方法在表格检测任务中被尝试使用,因表格检测是 文档分析的一个重要子任务,本节也会对其进行一 些介绍。因此与前文基于技术角度的阐述方式不同 的是,从下文开始将会从文档分析中的任务角度来 对其发展情况做出介绍。

4 基于深度学习的文档智能技术

近年来,深度学习方法已经成为许多机器学习 问题的解决范式。在众多研究领域,深度学习方法 被证明是十分有效的。最近,预训练模型的流行也 进一步发掘了深度神经网络的性能。而文档智能领 域的发展也体现出同样的趋势。本节中我们将现存 的模型分为针对特定任务的深度学习模型和支持多 种下游任务的通用预训练模型进行介绍。

5 未来发展方向

商业文档的自动阅读和分析具有明显的应用价 值,是自然语言处理和计算机视觉交叉领域的一个 重要研究方向。因此我们分别从自然语言处理、计 算机视觉以及多模态融合的角度来梳理一下文档智 能的未来发展方向。

从自然语言处理的角度出发,近年来以BERT [128] 为代表的大规模自监督预训练成为自然语言处理的 主流研究方向。与此同时,在大规模预训练模型基 础上,以 GPT-3 [129] 为 代 表 的 提 示 学 习 (Prompt Learning)研究方法;为文本预训练模型的应用给出 一种新型的范式,能够达到低计算量与性能调优的 平衡,受 到 了 广 泛 关 注。GPT-3 通 过 上 下 文 学 习 (In-contextLearning)的方法在零样本(Zero-shot) 和少样本(Few-shot)学习中展现出与 BERT 完全 不同的结论和性能,因此应该探究在文档智能领域 大模型的性质,以及如何利用大模型进行文档智能下 游任务的微调,例如 Parameter-efficient相关的方法 也是非常重要的。

文档智能中有大量以文档图片为载体的信息抽 取和问答任务,如表单/发票理解等。由于这些任务 所需的数据,人工标注代价很高,对自监督预训练模 型有很强的需求。除此之外,如何降低模型参数微 调(Fine-tuning)计算量也是这些任务亟待解决的问 题,因此文档图像的提示学习技术也是未来十分重 要的一个研究方向。 从计算机视觉的角度出发,以 ViT 视觉 Transformer [119]为代表的大规模预训练技术近年来也成 为计算机视觉的主流研究方向。由于文档图像理解 领域不存在类似ImageNet这种大规模人工标注数 据集,但无标注的文档图像却大量存在,因此自监督 文档图像预训练模型对于文档智能领域的发展至关 重要。文档智能领域中图像理解任务大多与版面分 析相关,如光学字符识别(OCR)、文档对象识别,特 别是表格识别等。传统的研究方法通常依赖任务相 关的标注数据来解决,相信随着视觉自监督预训练 模型的发 展 和 成 熟,对 于 标 注 数 据 的 依 赖 会 越 来 越小。

作为自然语言处理和计算机视觉的交叉领域, 文 档 智 能 更 多 地 应 用 了 多 模 态 融 合 技 术。 以 LayoutLM [15]为代表的多模态文档智能预训练模型 成为文档智能的主流研究方向。当前多模态融合主 要采用将不同模态的信息通过跨模态对齐任务进行 联合学习和预训练,取得了不错的效果。文档智能 领域中的多数任务都会同时利用文本信息和图像信 息,因此如何挖掘文本与图像之间的关联成为文档 智能理解的重要任务。与此同时,不同模态之间的互补性 也 将 决 定 文 档 智 能 任 务 的 精 确 度 和 可 扩 展性。 展望未来,除了解决文档多页跨页、训练数据质 量参差不齐、多任务关联性较弱以及少样本零样本 学习等问题,还应该特别关注文字检测识别 OCR 技术与文档智能技术的结合,因为文档智能下游任 务的输入通常来自于自动文字检测和识别算法,文 字识别的准确性往往对于下游任务有很大的影响。 此外,如何将文档智能技术与现有人类知识以及人 工处理文档的技巧相结合,也是未来值得探索的一 个研究课题。

6 结语

信息处理是数字化转型的基础和前提,如今对 处理能力、处理速度和处理精度也都有越来越高的 要求。以商业领域为例,电子商业文档就涵盖了采 购单据、行业报告、商务邮件、销售合同、雇佣协议、 商业发票、个人简历等大量繁杂的信息。机器人流 程自动化(RoboticProcessAutomation,RPA)行业 正是在这一背景下应运而生,其利用人工智能技术 帮助大量人工从繁杂的电子文档处理任务中解脱出 来,并通过一系列配套的自动化工具提升生产力, RPA 的关键核心之一就是文档智能分析技术。过 去的20年间,文档智能分析技术主要经历了三个阶 段,从最初的基于启发式规则,过渡到基于统计机器 学习的方法,到近来基于深度学习的方法,极大地提 升了分析性能和准确率。与此同时我们也观察到, 以 LayoutLM 为代表的大规模自监督通用文档智 能预训练模型也越来越多地受到人们的关注和使 用,逐步成为构建更为复杂算法的基本单元,后续研 究工作也层出不穷,促使文档智能领域加速发展。

成为VIP会员查看完整内容
61

相关内容

【NAACL2022】信息提取前沿
专知会员服务
58+阅读 · 2022年7月11日
表格识别技术研究进展
专知会员服务
37+阅读 · 2022年7月4日
「深度学习事件抽取」最新2022研究综述
专知会员服务
71+阅读 · 2022年6月2日
【AI与医学】多模态机器学习精准医疗健康
专知会员服务
78+阅读 · 2022年4月25日
神经结构搜索的研究进展综述
专知会员服务
35+阅读 · 2022年1月12日
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性
微软研究院AI头条
1+阅读 · 2022年7月26日
表格识别技术研究进展
专知
0+阅读 · 2022年7月4日
MSRA-万字综述 直击多模态文档理解
夕小瑶的卖萌屋
3+阅读 · 2021年12月28日
智能文档新成员:动态文档智能模型MarkupLM
微软研究院AI头条
3+阅读 · 2021年11月25日
EMNLP 2021 | LayoutReader:基于ReadingBank的阅读序列抽取模型
微软研究院AI头条
0+阅读 · 2021年11月4日
微软亚洲研究院提出多语言通用文档理解预训练模型LayoutXLM
微软研究院AI头条
2+阅读 · 2021年6月1日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
BanglaSarc: A Dataset for Sarcasm Detection
Arxiv
0+阅读 · 2022年9月27日
Arxiv
0+阅读 · 2022年9月26日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关VIP内容
【NAACL2022】信息提取前沿
专知会员服务
58+阅读 · 2022年7月11日
表格识别技术研究进展
专知会员服务
37+阅读 · 2022年7月4日
「深度学习事件抽取」最新2022研究综述
专知会员服务
71+阅读 · 2022年6月2日
【AI与医学】多模态机器学习精准医疗健康
专知会员服务
78+阅读 · 2022年4月25日
神经结构搜索的研究进展综述
专知会员服务
35+阅读 · 2022年1月12日
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员