科学知识的构建、阐释与验证,主要依赖于科研论文与专利文献。然而,这类文档往往采用非标准格式、版面布局多样且内容多模态,给自动化分析带来了障碍。这些挑战削弱了信息检索系统的效能,并限制了在大规模文档集上训练机器学习模型的能力。现有自然语言处理技术通常将文档视为纯文本,忽视了视觉信息的关键作用。尤其在化学领域,化学结构图与马库什(Markush)结构等视觉要素对理解文档内容至关重要。 为弥补这一缺口,本论文提出了新的机器学习方法,用于从文档中抽取化学结构与马库什结构。此外,论文构建了一个从专利文献中抽取的化学结构大型数据库。该数据库支持对专利文献的深入分析,并可用于面向特定任务的机器学习模型训练。 论文第一部分介绍 MolGrapher,这是一种将化学结构图像转换为分子图(molecular graph)的模型。MolGrapher 对输入图像进行三阶段处理:首先使用卷积神经网络检测分子中原子的位置;随后构建由候选原子与化学键组成的超图(supergraph);最后结合卷积神经网络与图神经网络对该超图的节点进行分类。该架构在训练效率、对低分辨率图像的稳健性以及对大型复杂分子图像的处理能力方面表现出色。 论文第二部分在 MolGrapher 的基础上,提出了一个完整的文档化学结构抽取流程,集成了页面分割、图像分类与基于 MolGrapher 的分子图识别。该工作流程应用于大规模专利文献集,构建了 PatCID 数据库:该库包含来自一百多万份文档的 8,000 万余条化学结构。PatCID 既可用于定位提及特定分子的文档,也可作为下游机器学习任务的高质量训练数据来源。实验表明,与现有自动生成的数据库相比,PatCID 在质量与覆盖面方面均更优;同时,PatCID 也是对人工构建数据库的有力补充。 论文最后一部分探讨马库什结构的识别问题。马库什结构是一种用于在文档中定义相关分子家族的表征方式,该任务具有挑战性,要求对视觉图示与文本成分进行联合解析。为此,论文提出 MarkushGrapher,该模型结合了视觉-文本-版式(Vision-Text-Layout)编码器与光学化学结构识别(Optical Chemical Structure Recognition, OCSR)编码器。MarkushGrapher 将马库什结构转化为由图与表组成的结构化表示:图对应结构的视觉部分,表对应其文本定义。实验结果显示,MarkushGrapher 在多种评测设定下显著优于化学专用模型与通用视觉-语言模型。