赛尔笔记 | 多模态信息抽取简述

2020 年 4 月 12 日 专知

作者：哈工大SCIR 郑子豪

摘要

现实世界中的信息一般以多模态的形式出现，而由于技术问题，多模态研究进展缓慢。近年来由于单模态研究的进步，多模态的研究有了更扎实的基础。多模态信息抽取是多模态学习与信息抽取技术结合的研究方向，本文介绍了多模态信息处理的一般方法，以及三个多模态信息抽取任务。

1. 背景

随着互联网的发展，网络所带来的信息呈现爆炸性增长，如何从这些数据中获得我们想要的信息，是亟需解决的问题。信息抽取的主要目标是从无结构的生文本中抽取出结构化、半结构化或非结构化的数据。信息抽取的一般过程是：在从生文本中抽取出信息后，将信息保存到结构化的数据库中，从而用户可以对数据库进行查询和使用。传统信息抽取仅针对文字，然而目前互联网上的信息呈现多模态化。例如，朋友圈一般呈现为“图片+文本”的形式，涉及视觉与文字模态；而视频呈现为“图片+文本+声音”，涉及视觉文字与听觉模态。在很多情况下，仅仅针对数据中的文本信息进行抽取，会造成数据信息的损失。如何对多模态的数据进行信息抽取，是多模态信息抽取技术的研究目标。

而近年来深度学习的发展以及算力的支持，使得图片、音频等多媒体数据可以和文本采用相同的深度学习框架分析，这为多模态研究提供了便利。例如，可以采用现有的ResNet等模型的输出向量作为图片表示。于是很多研究者采用了深度学习方法从多模态数据中抽取信息，在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升，也从侧面证明了多模态信息抽取研究的必要性。

2. 单模态表示方法

为了方便对信息的处理，需要对输入的数据进行表示。在深度学习时代，采用的表示方法是将输入的数据表示成向量，即数据的表示，进而通过深度神经网络的强大建模能力，自动地对输入数据中的特征进行提取。现有的单模态表示学习已经达到了很好的效果，为多模态表示的获取奠定了基础。多模态的表示既可以是多种模态同时学习得到的，也可以是对多种单模态表示融合得到的。本节将首先介绍单模态表示的基本方法。

2.1 文本表示方法

对于文本表示，核心是对语言基本单元（如英文中是单词）进行表示，然后用神经网络学习语言模型提取文本特征，最后用神经网络的某个输出向量作为文本表示。其中单词表示最开始使用独热表示 (One-Hot) ，每个词的表示为词典中的该词的索引 (index) ，然而这种表示太耗费空间，并且存在不能建模词之间的语义相似性、数据稀疏等问题。于是后续一般使用Mikolov等[1]用神经网络模型得到的向量作为词向量。提取文本特征的神经网络主要包括简单的前馈神经网络，以及擅长序列建模的循环神经网络 (RNN) ，如LSTM及其变体。近年有研究证明基于自注意力机制的模型Transformer及其变体具有比RNN更好的文本建模效果，并逐渐取代RNN成为主流的文本特征提取方法。

2.2 图片表示方法

一般采用堆叠的卷积和池化操作提取图片的特征，采用现有的图片分类或目标检测模型的某层输出作为图片模态的表示，如分类模型ResNet[2]和GoogLeNet[3]的最后一个CNN的输出，或者目标检测模型R-CNN[4]某个区域的表示。

3.3 声音表示方法

声音是模拟信号，一般将采集到的语音信号进行数字化，获得数字信号序列，然后利用内含生理学、语音学相关的先验知识对离散的数字信号序列进行声学特征向量的提取。当前的声音信号的处理技术主要有傅里叶变换、线性预测以及倒谱分析等。近年来，研究者还提出了一些将特征提取和声音模型训练紧密结合在一起的方法，如利用区分性训练算法对基础特征进行变换和利用不同的神经网络提取特征。

多模态信息抽取任务主要针对的是图片模态和文字模态。

3. 任务

3.1 多模态命名实体识别

命名实体识别（Named Entity Recognition，NER）是信息抽取的基础性工作，任务是从文本中识别出实体，并为之添加相应的标注信息，即实体类型。

传统的命名实体识别只考虑文本信息，但是很多情况下只考虑文本信息是不足的，如下面一句话“汤姆在追逐杰瑞。”显然根据文本并不能确定汤姆和杰瑞是人还是动物，但是如果为文本配上对应图片，则不会出现这一情况。于是有研究者开始考虑融合多模态信息的命名实体识别任务，Zhang[5]选择了推特作为数据源，爬取并标注了包含配图的推特命名实体识别数据集，其中包含人、地点、机构和杂项共4种类型的实体。作者拓展了传统的双向LSTM+CRF模型，在CRF层之前对文本和图片的表示进行了互注意力，从而使得每个词获取了多模态的表示，并加入了门控机制与过滤器机制来控制每个词对图片和文本的偏好程度，相比之前只使用文本的NER方法，有了很大的提升，证明了多模态信息能提高NER的效果。

图1 多模态NER模型图[5]

3.2 多模态实体链接

实体链接（Entity Linking，EL）是指将从文本中抽取的实体对象链接到知识库中对应的实体对象[6]。实体链接的基本思想是首先根据给定的实体名称，从知识库中选择一组候选实体对象，然后根据相似度将实体链接到正确的实体对象。

传统的实体链接数据集，如TAC KBP、ACE、CoNLL-YAGO获取自标准文档，含有丰富的上下文，能为实体链接提供充足的信息。然而，对于社交媒体的文本，如朋友圈，长度短并且含有很多噪声，很难使用传统的方法进行处理。目前有研究者提出多模态实体链接方法，结合图片和文本进行实体消歧。Moon[8]提出了一种针对Snapchat社交平台的融合图片信息的面向短社交文本的实体链接方法。在该工作中，作者分别利用CNN和LSTM提取视觉特征和文本特征并获得对应表示，同时预训练了一个基于编辑距离的实体相似性子网络来判断两个实体提及是否是相同，来获取实体的词汇级别的表示，然后使用注意力机制对三种表示进行融合，最后通过计算实体提及与知识库中体实体的相似性来得到实体链接的结果。作者从Snapchat中抽取了图片和对应标题，然后对标题中的实体及指向知识库的链接进行标注，从而获得数据集。该方法的效果优于传统只利用文本的实体链接方法，在社交媒体数据上取得了很大的提升。

图2 多模态实体链接模型图[8]

3.3 多模态关系抽取

关系抽取（Relation Extraction，RE）是指：给定两个实体，获取实体之间存在的语法或语义上的联系。很多情况下，加入实体对应的图片，可以提升实体之间关系的识别效果。比如，给定“车”和“车轮”，当提供对应的图片之后，模型可以根据两者图片的对应关系推断出二者是“一部分”的关系。否则如果训练集中没有出现类似的样本，将很难判断出二者的关系。已有研究者采用知识表示学习的方式融合多模态信息进行关系抽取，如IKRL[9]。IKRL旨在融合多模态信息来提高(实体，关系，实体)三元组预测的准确性。作者首先学习实体和关系的表示，然后使用TransE的能量函数对三元组进行打分，最后通过排序来预测实体之间的关系。作者采用拓展TransE的能量函数，增加实体原有表示与实体图片表示之间能量函数的方式来融合多模态信息。其中实体图片表示的获取方法为：用原有实体表示对该实体对应的所有图片的表示采用注意力机制求和。作者从WordNet中抽取出实体及实体之间的关系组成三元组，并从ImageNet中抽取出实体对应的图片，构造出数据集WN9-IMG。

图3 实体表示对图片表示采用注意力机制[9]

实验证明，融合了图片信息之后，三元组关系分类的效果较原有的TransE方法有明显提升。[10]则是对[9]的进一步改进，其为实体丰富了文本模态的表示，然后将实体对应的文本表示和图片表示进行融合，得到实体的多模态表示，然后增加了多模态表示与原有实体表示之间的能量函数，在WN9-IMG数据集上取得了更好的效果。

图4 增加了多模态表示对TransE模型[10]

4. 总结

本文简要介绍了三个多模态信息抽取任务及相关工作。融合多模态的信息抽取技术是构造多模态知识库的基础，可以为问答系统、信息检索等很多应用提供充足的数据支持，因此该研究方向存在巨大的发展与应用前景。但是，多模态研究也存在很大挑战，不同模态之间的信息存在重复和噪声，如何解决这些问题是处理好多模态任务的关键。

参考文献

[1]T. Mikolov, K. Chen, G. Corrado, and J. Dean, Efficient estimation of word representations in vector space, in Proc. ICLR, 2013.

[2]K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. CVPR, 2016.

[3]Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. 2015. Rethinking the inception architecture for computer vision. CoRR .

[4]R. Girshick, J. Donahue, T. Darrell, and J. Malik, Rich feature hierarchies for accurate object detection and semantic segmentation,in Proc. CVPR, 2014.

[5] ZHANG, Q.; FU, J.; LIU, X.; HUANG, Adaptive Co-attention Network for Named Entity Recognition in Tweets. AAAI Conference on Artificial Intelligence, North America, apr. 2018

[6] Seungwhan Moon, Leonardo Neves, Vitor Carvalho ,Multimodal Named Entity Recognition for Short Social Media Posts,NAACL,2018

[7] Di Lu, Leonardo Neves, Vitor Carvalho, Ning Zhang, Heng Ji,Visual Attention Model for Name Tagging in Multimodal Social Media,ACL,2018

[8] Seungwhan Moon, Leonardo Neves, Vitor Carvalho,Zeroshot Multimodal Named Entity Disambiguation for Noisy Social Media Posts,ACL,2018

[9] Ruobing Xie, Zhiyuan Liu, Huanbo Luan, Maosong Sun,Image-embodied Knowledge Representation Learning,IJCAI,2017

[10] Hatem Mousselly-Sergieh, Teresa Botschen, Iryna Gurevych, Stefan Roth ,A Multimodal Translation-Based Approach for Knowledge Graph Representation Learning, *SEMEVAL,2018

本期责任编辑：丁效

本期编辑：顾宇轩

『哈工大SCIR』公众号

主编：车万翔

副主编：张伟男，丁效

执行编辑：李家琦

责任编辑：张伟男，丁效，崔一鸣，李忠阳

编辑：赖勇魁，李照鹏，冯梓娴，胡晓毓，王若珂，顾宇轩