Brief. Bioinform. | CIRS：自动提取专利信息，重建近药空间

编译｜董靖鑫审稿｜张翔本文介绍由华东理工大学药学院上海市新药设计重点实验室/华东师范大学人工智能新药创智中心李洪林/张凯团队在Briefings in Bioinformatics上发表题为“Multi-Modal Chemical Information Reconstruction from Images and Texts for Exploring the Near-Drug Space”的文章。本文提出一种多模态化学信息重建系统CIRS，通过从化学专利的文本和图像中提取化学实体重建化学信息，以促进近药空间的探索和构建。

背景

科学出版物和化学专利的指数级增长为拓展和探索近药空间（Near-drug space）带来了新机遇。从专利，文献中识别带有想要的多样性结构或生物学属性的新的化合物对于药物发现来说至关重要。

目前很多研究是从单独的模态中考虑提取化学信息，如从图像中识别化学结构，从文本中识别化学实体并挖掘其关系。实际上，可以同时利用不同模态的数据以提供更准确的结果。除了每个单独领域的识别任务带来的困难外，来自语言描述和图像中的化学信息具有高度不同的形式和统计特性，因此自动且准确地融合文本和图像中的化学信息仍具有很大挑战。

作者提出一个多模态化学信息重构系统CIRS，能自动处理、提取、对齐文本和图像的信息，可以有效地构建对药物发现有用且可扩展的分子结构以填充近药物空间。

方法

CIRS包含图像处理单元（左分支），跨模态数据生成器（中间），文本处理单元（右分支）。左右两个分支分别处理从化学专利中提取的Markush结构图像和可变取代基文本数据，并且通过跨模态的数据生成器连接起来，其作用是生成跨域的配对训练数据。每个模态的化学实体被识别，然后自动对齐以提取文献中融合的信息，以便构建一个高度可扩展，结构化的分子数据库，丰富近药空间。

图1 CIRS工作流图

具体流程如下： 1. 数据生成器产生Markush结构图像和像素级的原子/键标签，并将其作为训练数据输入图像处理单元。其中，数据生成器对生成训练样本的数量和多样性没有严格限制，为图像处理单元和文本处理单元的泛化性提供基础。 1. **图像处理单元（图2 A）**由分割模块 (U-Net3+) 和分类模块 (YOLO)组成，将像素分割成原子、键，并定位每个原子点的几何中心，预测原子、键类型和电荷，随后融合所有得到的信息得到结构化的分子表示。 1. **文本处理单元（图3 D）**采用 BiLSTM-CRF 模型识别文本中的化学实体（R 基团和取代基）。 1. 两个分支的输出（特别是左边的原子/键标签和右边的化学实体）相互融合以重建化学信息，组合出图像及文本中涵盖的化学实体结构。

图2 图像处理单元 A.分割模型和分类模型 B.评估结果

图3 文本处理单元模型架构及评估结果

结果
实验设置

评估图像处理单元的数据集： (1) 人工数据集。通过替换ChEMBL中隐式的氢原子为官能团和R基团得到。 (2) MolrecUOB数据集。包含来自于化学文献的5740个真实（带噪声）图像，其中包括官能团和R基团。
图像处理单元的评估指标： (1) 准确度。 (2) Tanimoto相似度。
评估文本处理单元数据集： European Patent Office (EPO), US Patent and Trademark Office (USPTO)

实验结果

图像处理单元

图像处理单元的性能如图2 B，表2所示。在人工数据集上，分割模块能准确检测到图像中原子和键的位置，像素级的准确度超过98%；分类模块在原子类型/R基团/键类型/原子电荷的平均准确度分别为0.996/0.976/0.996/0.989。作者分析的准确率高的主要原因包含两方面：(1) 数据生成器能提供多样的训练数据。(2) 扰动训练数据以增强模型的鲁棒性。

文本处理单元文本处理单元的性能如图3，表3所示。在增强的数据集上训练的BiLSTM-CRF明显优于LSTM和LIME，在实体类型和组件类型上F1-score分别能达到97%和98%。作者分析BiLSTM-CRF同时具备捕获双向语义依赖的能力，以及提取上下文间时序特征的能力，因此具有更好的表现。

案例研究

图4 CIRS从文献中自动提取化学结构作者选择了一项专利进行案例研究以证明CIRS的实用性（图4）。具体而言，CIRS从专利的图像和文本描述中提取化学实体，并将实体对齐，最后将重建的信息转换为结构化的分子数据库。CIRS从文献中提取出1个Markush结构和包含123种取代基结构的8种化学实体，并根据文献中提供的组合规则得到超过二百万个分子，这与文献中报道的11个分子实例相比，极大丰富其多样性，有望为化学家们构建一个具有重要意义的近药空间。

总结

本文提出一种多模态化学信息重建系统CIRS，通过从化学专利的文本和图像中提取化学实体并融合转化为结构数据以重建化学信息。实验结果显示出CIRS可以有效地用于构建可扩展的分子结构，以丰富近药物空间并促进药物发现。此外，CIRS可能有助于建立知识库（例如知识图谱），以实现化学知识的智能检索。

参考资料 Jie Wang, Zihao Shen, Yichen Liao, Zhen Yuan, Shiliang Li, Gaoqi He, Man Lan, Xuhong Qian, Kai Zhang, Honglin Li, Multi-modal chemical information reconstruction from images and texts for exploring the near-drug space, Briefings in Bioinformatics, 2022; bbac461 https://doi.org/10.1093/bib/bbac461

数据 https://www.ebi.ac.uk/chembl/

成为VIP会员查看完整内容