Visual-semantic embedding enables various tasks such as image-text retrieval, image captioning, and visual question answering. The key to successful visual-semantic embedding is to express visual and textual data properly by accounting for their intricate relationship. While previous studies have achieved much advance by encoding the visual and textual data into a joint space where similar concepts are closely located, they often represent data by a single vector ignoring the presence of multiple important components in an image or text. Thus, in addition to the joint embedding space, we propose a novel multi-head self-attention network to capture various components of visual and textual data by attending to important parts in data. Our approach achieves the new state-of-the-art results in image-text retrieval tasks on MS-COCO and Flicker30K datasets. Through the visualization of the attention maps that capture distinct semantic components at multiple positions in the image and the text, we demonstrate that our method achieves an effective and interpretable visual-semantic joint space.


翻译:视觉- 语义嵌入使图像- 文字检索、 图像说明和视觉问题解答等各种任务得以解答 。 成功视觉- 语义嵌入的关键是正确表达视觉和文字数据, 并解释其复杂的关系 。 虽然以前的研究已经取得了很大进步, 将视觉和文字数据编码到一个类似概念所在的联合空间, 但是它们往往代表着单个矢量的数据, 忽略图像或文字中多个重要组成部分的存在 。 因此, 除了联合嵌入空间外, 我们提议建立一个新的多头自省网络, 通过关注数据中的重要部分来捕捉视觉和文字数据的各个组成部分 。 我们的方法在 MS- CO 和 Flicker30K 数据集的图像- 文本检索任务中实现了新的最新结果 。 通过对关注地图的可视化, 在图像和文本的多个位置上捕捉到不同的语义组成部分, 我们证明我们的方法实现了一个有效和可解释的视觉- 语义联合空间 。

4
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
82+阅读 · 2020年6月21日
专知会员服务
59+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员