Exploring fine-grained relationship between entities(e.g. objects in image or words in sentence) has great contribution to understand multimedia content precisely. Previous attention mechanism employed in image-text matching either takes multiple self attention steps to gather correspondences or uses image objects (or words) as context to infer image-text similarity. However, they only take advantage of semantic information without considering that objects' relative position also contributes to image understanding. To this end, we introduce a novel position-aware relation module to model both the semantic and spatial relationship simultaneously for image-text matching in this paper. Given an image, our method utilizes the location of different objects to capture spatial relationship innovatively. With the combination of semantic and spatial relationship, it's easier to understand the content of different modalities (images and sentences) and capture fine-grained latent correspondences of image-text pairs. Besides, we employ a two-step aggregated relation module to capture interpretable alignment of image-text pairs. The first step, we call it intra-modal relation mechanism, in which we computes responses between different objects in an image or different words in a sentence separately; The second step, we call it inter-modal relation mechanism, in which the query plays a role of textual context to refine the relationship among object proposals in an image. In this way, our position-aware aggregated relation network (ParNet) not only knows which entities are relevant by attending on different objects (words) adaptively, but also adjust the inter-modal correspondence according to the latent alignments according to query's content. Our approach achieves the state-of-the-art results on MS-COCO dataset.


翻译:探索实体( 如图像中的物体或句子中的文字) 之间的细微关系可以极大地帮助准确理解多媒体内容。 在图像文本匹配中, 先前使用的注意机制要么采取多度自关注步骤收集信件或使用图像对象( 或文字) 来推断图像文本的相似性。 但是, 它们只是利用语义信息, 而不考虑对象相对位置也有利于图像理解。 为此, 我们引入了一个新的位置感知关系模块, 用于同时模拟图像文本匹配的语义和空间关系。 在图像中, 我们使用的方法使用不同对象的位置来创新地捕捉空间关系。 由于语义和空间关系相结合, 将图像文本对象( 图像和句) 和图像文本相近的隐性对应性。 此外, 我们使用两步总和关系模块来捕捉可解释的图像- 文本对配对的匹配。 第一步, 我们称之为内部关系机制, 我们使用不同对象的定位, 在不同的目标中, 以不同的图像或图像关系中, 跨级关系中, 将我们使用一个跨级的图像关系, 排序关系中, 将我们使用一个跨级的图像关系中, 排序中, 将我们使用我们使用一个图像关系 的图像关系中, 的跨级关系中, 将一个跨级关系中, 将我们使用一个跨级关系, 将一个图像关系中, 将一个跨级关系中, 将我们使用一个图像关系 将一个图像关系定位的跨级关系中, 。

1
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Arxiv
3+阅读 · 2018年3月21日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Top
微信扫码咨询专知VIP会员