【AAAI2018】通过动态融合方式学习多模态词表示,中科院自动化所宗成庆老师团队最新工作

2018 年 2 月 19 日 专知 专知内容组

【导读】基于文本来学习词的语义表示, 特别是基于共现的工作, 如Word2Vec能够很好的处理大多数任务, 然而, 这些语义表示和人的语义表示系统有很大出入. 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 只基于单一模态, 如文本,虽然能得到一些效果, 但是并不符合人类的认知, 而考虑多种模态, 但是等同对待不同模态的信息, 显然也不能很好的刻画词的语义, 本文尝试在基于词对的弱监督的情况下, 动态的融合多模态信息, 根据词的不同,赋予这个词的不同模态信息以不同权重, 取得了很好的效果。

论文链接:https://arxiv.org/abs/1801.00532


摘要:



 

很多工作已经证明, 在学习词的语义表示这一任务上, 多模态模型是优于仅仅基于文本的模型的. 然而, 目前能见到的多模态模型, 总是等同的对待所有模态的信息, 这显然是有问题的, 来自不同模态的信息对词的语义所起的的贡献不尽相同. 本文致力于建立一个多模式模型,它可以根据不同类型的单词动态融合来自不同模态的语义表示. 本文提出了三种动态融合多模态信息的算法, 用来为每种模态分配权重. 这些权重是在词对之间的弱监督之下学来的. 最终的实验结果表示, 这些模型比单模态的模型要好, 且比多模态的state-of-art要好。


介绍:



 

准确的表示单词的语义是解决许多自然语言问题的先决条件,比如计算不同单词之间的语义关系,查找给定单词的最相关的图像等等。近年来,根据语料库中的词汇贡献来学习词的语义表示的工作得到的蓬勃发展, 比如Word2Vec. 然而,与人类的语义表示相比,这些纯粹基于文本的模型严重缺乏与物理世界相关的感知信息。这一观察导致了利用语言(例如文本)和感知信息(例如图像,音频)的多模态词表示模型的发展。大量的文章表明,这样的模型能比基于文本的模型学到更好的词语义表示.


学习到好的基于多模态的词的语义表示,  不仅仅需要高质量的文本语料和感知信息, 还要很好的将这些信息组合起来. 然而, 当前的多模态模型, 通常同等的对待每个模态. 这显然是不符合实际情况的, 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 所有的这些因素都激励着本文构建出一个基于词的类型来动态融合多模态信息的模型.


本文提出了三种新颖的动态融合方法, 来提升多模态的词表示. 分别是基于模态, 基于类别, 基于样本的方法, 来分别融合每个词的语言和感知信息. 它们对应于不同的模态输入, 不同的类别场景, 不同的样本情况. 本文的主要贡献有两个:


提出了一种新的多模态表示的动态融合方法,它利用一小组语义关联的单词对来学习不同模态不同权重下的语义词表示。 核心思想是引入弱监督来学习一个通用的融合规则。 


定量分析表明,本文所提出的模型可以成功地为语言和感知表示赋予不同的权重,并且具体词和抽象词之间的差异也能通过权重明显表示出来。 这为人们对具体词和抽象词进行不同编码提供了初步支持,并且所提出的模型可以帮助大家探索人类语义表征。

模型简介




模型的结构如下:

模型主要分4步, 分别对应: 1. 文本的Glove词向量学习,2. 文本信息和感知信息之间的映射的学习, 3. 基于文本和感知信息进行多模态融合, 各个模态的权重有Gate控制, 4. 优化模型. 其中, 是一对相关词pair, 是它们的词向量, 是它们的感知信息.

 

本文使用岭回归来学习文本和感知信息的映射:

其中, 是词语的CNN表示结果, 是词语的文本表示结果, 是映射关系, 是学习权重.

 

对于各个模态之间的权重控制, 文章设置入下:

       三种Gate 分别对应三种融合方式.每一种融合方式都会计算出权重, 其中文本信息的权重为, 感知信息的权重为

总的优化式如下:

即, 给定一个语义相关词语对w1,w2, 为了在给定不同的Gate下学习模型的参数, 可以优化上式.其中Mi是wi的多模态表示:

n1,n2是负采样随机选出的词

实验分析




表1:六个评价数据集的结果

 

图是训练数据集比例对模型的影响性能

结论




本文提出了三种简单而有效的学习多模态词表示的融合方法(M-gate, C-gate, S-gate)。 实验评估表明,我们提出的模型在所有六个测试中的准确度都有显着提高。 定性分析进一步证明,所提出的方法可以根据不同类型的单词动态地融合来自不同模态的表示信息。

原文链接:

https://arxiv.org/abs/1801.00532

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

同时欢迎各位用户进行专知投稿,详情请点击

诚邀】专知诚挚邀请各位专业者加入AI创作者计划了解使用专知!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!


点击“阅读原文”,使用专知

登录查看更多
6

相关内容

多模态深度学习综述,18页pdf
专知会员服务
213+阅读 · 2020年3月29日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
陶建华、杨明浩谈多模态人机对话:交互式学习能力愈发重要
中国科学院自动化研究所
31+阅读 · 2019年7月17日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
论文浅尝 | 通过多原型实体指称向量关联文本和实体
开放知识图谱
7+阅读 · 2018年6月21日
论文浅尝 | 基于多原型mention向量的文本-实体联合学习
【团队新作】让机器"好好说话": 自然语言处理新进展
机器学习研究会
3+阅读 · 2018年2月1日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
9+阅读 · 2018年5月24日
Arxiv
29+阅读 · 2018年4月6日
VIP会员
相关VIP内容
相关资讯
陶建华、杨明浩谈多模态人机对话:交互式学习能力愈发重要
中国科学院自动化研究所
31+阅读 · 2019年7月17日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
论文浅尝 | 通过多原型实体指称向量关联文本和实体
开放知识图谱
7+阅读 · 2018年6月21日
论文浅尝 | 基于多原型mention向量的文本-实体联合学习
【团队新作】让机器"好好说话": 自然语言处理新进展
机器学习研究会
3+阅读 · 2018年2月1日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
Top
微信扫码咨询专知VIP会员