Image Retrieval is a fundamental task of obtaining images similar to the query one from a database. A common image retrieval practice is to firstly retrieve candidate images via similarity search using global image features and then re-rank the candidates by leveraging their local features. Previous learning-based studies mainly focus on either global or local image representation learning to tackle the retrieval task. In this paper, we abandon the two-stage paradigm and seek to design an effective single-stage solution by integrating local and global information inside images into compact image representations. Specifically, we propose a Deep Orthogonal Local and Global (DOLG) information fusion framework for end-to-end image retrieval. It attentively extracts representative local information with multi-atrous convolutions and self-attention at first. Components orthogonal to the global image representation are then extracted from the local information. At last, the orthogonal components are concatenated with the global representation as a complementary, and then aggregation is performed to generate the final representation. The whole framework is end-to-end differentiable and can be trained with image-level labels. Extensive experimental results validate the effectiveness of our solution and show that our model achieves state-of-the-art image retrieval performances on Revisited Oxford and Paris datasets.


翻译:图像检索是获取与数据库查询相似的图像的基本任务。 一个常见的图像检索做法是首先通过使用全球图像特征的类似搜索获取候选图像,然后通过利用本地特征重新排序候选人。 以往的学习基础研究主要侧重于全球或本地图像代表学习, 以解决检索任务。 在本文中, 我们放弃两阶段模式, 并寻求设计一个有效的单一阶段解决方案, 将本地和全球图像内部信息整合到压缩图像表达中。 具体地说, 我们提出一个用于端到端图像检索的深 Orthognal 地方和全球信息聚合框架( DOLG) 。 它会仔细提取具有代表性的本地信息, 首先是多振动共振和自省。 然后从本地信息中提取到全球图像代表的构件或图解调。 最终, 我们的组合组件与全球代表相配合, 然后进行汇总, 生成最终代表。 整个框架是端到端的, 可以接受图像级图像级标签的培训。 广度的实验性结果验证了我们国家解决方案的绩效, 并展示了我们 Statal- reformaisal 的模型的成绩, 。

0
下载
关闭预览

相关内容

从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
82+阅读 · 2021年5月4日
【经典书】信息论原理,774页pdf
专知会员服务
257+阅读 · 2021年3月22日
专知会员服务
77+阅读 · 2021年3月16日
【经典书】线性代数元素,197页pdf
专知会员服务
56+阅读 · 2021年3月4日
最新《多任务学习》综述,39页pdf
专知会员服务
265+阅读 · 2020年7月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
LibRec 精选:近期15篇推荐系统论文
LibRec智能推荐
5+阅读 · 2019年3月5日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
9+阅读 · 2018年5月7日
VIP会员
相关VIP内容
专知会员服务
82+阅读 · 2021年5月4日
【经典书】信息论原理,774页pdf
专知会员服务
257+阅读 · 2021年3月22日
专知会员服务
77+阅读 · 2021年3月16日
【经典书】线性代数元素,197页pdf
专知会员服务
56+阅读 · 2021年3月4日
最新《多任务学习》综述,39页pdf
专知会员服务
265+阅读 · 2020年7月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Top
微信扫码咨询专知VIP会员