【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

会员服务 ·

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

2017 年 10 月 24 日 新智元

【AI WORLD 2017世界人工智能大会倒计时 14 天】

“AI达摩”齐聚世界人工智能大会，AI WORLD 2017议程嘉宾重磅发布

致敬1024程序员节，庆祝新智元微信粉丝突破23万，大会限时 8 折票抢购中！从现在开始，点击文末“阅读原文”或扫描二维码进入活动行网站，使用优惠码“1024”，即可尊享分论坛 8 折购票，活动截止至10月27日0点。

2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们邀请到了阿里巴巴副总裁、iDST副院长华先胜，为我们解读阿里巴巴在AI领域的最新进展。

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网：http://www.aiworld2017.com

新智元专栏

团队：阿里巴巴iDST，西安电子科技大学，西安交通大学，微软研究院

作者：牛振兴周默王乐高新波华刚

【新智元导读】阿里巴巴副总裁、iDST副院长华先胜将出席AI WORLD 2017世界人工智能大会并做精彩分享。今天，我们为大家推荐介绍一项阿里巴巴iDST参与进行的研究——基于层次化多模态LSTM的视觉语义联合嵌入。

精准描述商品：计算机视觉和自然语言处理的联合

近年来, 随着深度学习技术的快速发展, 人们开始尝试将计算机视觉(Vision)和自然语言处理(Language)两个相对独立的领域联合起来进行研究, 实现一些在过去看来非常困难的任务，例如“视觉-语义联合嵌入(Visual-Semantic Embedding)”。该任务需要将图像及语句表示成一个固定长度的向量，进而嵌入到同一个矢量空间中。这样，通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。

视觉语义联合嵌入的一个典型应用就是图像标题生成（Image Captioning）：对于任意输入的一张图像, 在空间中找到最匹配的一句话, 实现图像内容的描述。在电商场景下, 淘宝卖家在发布一件商品时, 该算法可以根据卖家上传得图片, 自动生成一段描述性文字, 供卖家编辑发布使用。再比如，视觉语义联合嵌入还可以应用于“跨模态检索(Cross-media Retrieval)”：当用户在电商搜索引擎中输入一段描述性文字（如“夏季宽松波希米亚大摆沙滩裙”、“文艺小清新娃娃领飞飞袖碎花A字裙”等）, 通过文字-图像联合分析, 从商品图像数据库中找到最相关的商品图像返回给用户。

之前的不足：只能嵌入较短的语句简单描述图片

以往的视觉语义联合嵌入方法往往只能对比较短的句子进行嵌入，进而只能对图像做简单而粗略的描述，然而在实际应用中，人们更希望得到对图像（或图像显著区域）更为细致精确的描述。如图1所示，我们不仅想知道谁在干什么，还想知道人物的外表，周围的物体，背景，时间地点等。

现有方法：“A girl is playing a guitar.”

我们提出的方法：“a young girl sitting on a bench is playing a guitar with a black and white dog nearby.”

图1 现有方法的问题

为了实现这个目标，我们提出一个框架：第一步从图像中找出一些显著性区域，并用具有描述性的短语描述每个区域；第二步将这些短语组合成一个非常长的具有描述性的句子，如图2所示。

图2 我们的提出的框架

为此，我们在训练视觉语义联合嵌入模型时不仅需要将整个句子嵌入空间，更应该将句子中的各种描述性短语也嵌入空间。然而，以往的视觉语义联合嵌入方法通常采用循环神经网络模型（如LSTM(Long short-term memory)模型）来表示语句。标准的LSTM模型有一个链式结构（Chain structure）：每一个单元对应一个单词，这些单词按出现顺序排成一列，信息从第一个单词沿该链从前传到最后，最后一个节点包含了所有的信息，往往用于表示整个句子。显然，标准的LSTM模型只适合表示整个句子，无法表示一句话中包含的短语，如图所示。

图3 链式结构的问题

论文创新方法：提出层次化的LSTM模型

本文提出一种多模态、层次化的LSTM模型（Hierarchical Multimodal LSTM）。该方法可以将整个句子、句子中的短语、整幅图像、及图像中的显著区域同时嵌入语义空间中，并且自动学习出“句子-图像”及“短语-图像区域”间的对应关系。这样一来，我们生成了一个更为稠密的语义空间，该空间包含了大量的描述性的短语，进而可以对图像或图像区域进行更详细和生动的描述，如图所示。

图4 本文提出的多模态层次结构

本文方法的创新性在于提出了一个层次化的LSTM模型，根节点对应整句话或整幅图像，叶子节点对应单词，中间节点对应短语或图象中的区域。该模型可以对图像、语句、图像区域、短语进行联合嵌入（Joint embedding），并且通过树型结构可以充分挖掘和利用短语间的关系（父子短语关系）。其具体网络结构如下图所示

图5 网络结构

其中为每一个短语和对应的图像区域都引入一个损失函数，用于最小化二者的距离，通过基于结构的反向传播算法进行网络参数学习。

在图像-语句数据集上的比较

图 6：在Flickr30K数据集上的对比

图 7在MS-COCO数据集上的对比

可见本文方法在几个公开数据集上都获得了很好的效果

在图像区域-短语数据集上的对比

我们提供了一个带有标注的图像区域-短语数据集MS-COCO-region，其中人工标定了一些显著性物体，并在这些物体和短语之间建立了联系。

图 8在MS-COCO-region数据集上的对比

下图是我们方法的可视化结果，可见我们的短语具有很强的描述性

此外，我们可以学习出图像区域和短语的对应关系，如下

想现场聆听华先胜老师的精彩分享，深入了解阿里巴巴iDST最新的研究进展？点击“阅读原文”，马上抢票！

【AI WORLD 2017世界人工智能大会倒计时 14 天】点击图片查看嘉宾与日程。

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

【扫一扫或点击阅读原文抢购大会门票】

AI WORLD 2017 世界人工智能大会购票二维码：

登录查看更多

相关内容

长短期记忆网络

关注 0

长短期记忆网络(LSTM)是一种用于深度学习领域的人工回归神经网络(RNN)结构。与标准的前馈神经网络不同，LSTM具有反馈连接。它不仅可以处理单个数据点(如图像)，还可以处理整个数据序列(如语音或视频)。例如，LSTM适用于未分段、连接的手写识别、语音识别、网络流量或IDSs(入侵检测系统)中的异常检测等任务。

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日