Most existing image retrieval systems use text queries as a way for the user to express what they are looking for. However, fine-grained image retrieval often requires the ability to also express the where in the image the content they are looking for is. The text modality can only cumbersomely express such localization preferences, whereas pointing is a more natural fit. In this paper, we propose an image retrieval setup with a new form of multimodal queries, where the user simultaneously uses both spoken natural language (the what) and mouse traces over an empty canvas (the where) to express the characteristics of the desired target image. We then describe simple modifications to an existing image retrieval model, enabling it to operate in this setup. Qualitative and quantitative experiments show that our model effectively takes this spatial guidance into account, and provides significantly more accurate retrieval results compared to text-only equivalent systems.


翻译:大多数现有的图像检索系统都使用文字查询作为用户表达自己所要查找的内容的一种方式。 但是,精细的图像检索往往要求有能力在图像中同时表达他们所要查找的内容所在位置。 文本模式只能繁琐地表达这种本地化偏好, 而指出则更自然。 在本文中, 我们提出一个图像检索设置, 使用一种新形式的多式查询, 用户同时使用语言自然语言( what) 和鼠标在空画布上( 哪里) 的痕迹来表达想要的目标图像的特性。 我们然后描述对现有图像检索模型的简单修改, 使其能够在这个设置中运行 。 定性和定量实验显示, 我们的模型有效地考虑到这种空间指导, 并提供比文本对应系统更准确得多的检索结果 。

0
下载
关闭预览

相关内容

从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度学习图像检索(CBIR): 十年之大综述
专知会员服务
46+阅读 · 2020年12月5日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
已删除
将门创投
4+阅读 · 2018年1月19日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
0+阅读 · 2021年5月20日
Arxiv
16+阅读 · 2021年1月27日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关论文
Arxiv
0+阅读 · 2021年5月20日
Arxiv
16+阅读 · 2021年1月27日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年1月11日
Top
微信扫码咨询专知VIP会员