【AAAI2018】通过动态融合方式学习多模态词表示，中科院自动化所宗成庆老师团队最新工作

2018 年 2 月 19 日 专知专知内容组

【导读】基于文本来学习词的语义表示, 特别是基于共现的工作, 如Word2Vec能够很好的处理大多数任务, 然而, 这些语义表示和人的语义表示系统有很大出入. 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 只基于单一模态, 如文本,虽然能得到一些效果, 但是并不符合人类的认知, 而考虑多种模态, 但是等同对待不同模态的信息, 显然也不能很好的刻画词的语义, 本文尝试在基于词对的弱监督的情况下, 动态的融合多模态信息, 根据词的不同,赋予这个词的不同模态信息以不同权重, 取得了很好的效果。

论文链接：https://arxiv.org/abs/1801.00532

▌摘要：

很多工作已经证明, 在学习词的语义表示这一任务上, 多模态模型是优于仅仅基于文本的模型的. 然而, 目前能见到的多模态模型, 总是等同的对待所有模态的信息, 这显然是有问题的, 来自不同模态的信息对词的语义所起的的贡献不尽相同. 本文致力于建立一个多模式模型，它可以根据不同类型的单词动态融合来自不同模态的语义表示. 本文提出了三种动态融合多模态信息的算法, 用来为每种模态分配权重. 这些权重是在词对之间的弱监督之下学来的. 最终的实验结果表示, 这些模型比单模态的模型要好, 且比多模态的state-of-art要好。

▌介绍：

准确的表示单词的语义是解决许多自然语言问题的先决条件，比如计算不同单词之间的语义关系，查找给定单词的最相关的图像等等。近年来，根据语料库中的词汇贡献来学习词的语义表示的工作得到的蓬勃发展, 比如Word2Vec. 然而，与人类的语义表示相比，这些纯粹基于文本的模型严重缺乏与物理世界相关的感知信息。这一观察导致了利用语言（例如文本）和感知信息（例如图像，音频）的多模态词表示模型的发展。大量的文章表明,这样的模型能比基于文本的模型学到更好的词语义表示.

学习到好的基于多模态的词的语义表示, 不仅仅需要高质量的文本语料和感知信息, 还要很好的将这些信息组合起来. 然而, 当前的多模态模型, 通常同等的对待每个模态. 这显然是不符合实际情况的, 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 所有的这些因素都激励着本文构建出一个基于词的类型来动态融合多模态信息的模型.

本文提出了三种新颖的动态融合方法, 来提升多模态的词表示. 分别是基于模态, 基于类别, 基于样本的方法, 来分别融合每个词的语言和感知信息. 它们对应于不同的模态输入, 不同的类别场景, 不同的样本情况. 本文的主要贡献有两个:

提出了一种新的多模态表示的动态融合方法，它利用一小组语义关联的单词对来学习不同模态不同权重下的语义词表示。核心思想是引入弱监督来学习一个通用的融合规则。

定量分析表明，本文所提出的模型可以成功地为语言和感知表示赋予不同的权重，并且具体词和抽象词之间的差异也能通过权重明显表示出来。这为人们对具体词和抽象词进行不同编码提供了初步支持，并且所提出的模型可以帮助大家探索人类语义表征。

▌模型简介

模型的结构如下: