This paper introduces the large scale visual search algorithm and system infrastructure at Alibaba. The following challenges are discussed under the E-commercial circumstance at Alibaba (a) how to handle heterogeneous image data and bridge the gap between real-shot images from user query and the online images. (b) how to deal with large scale indexing for massive updating data. (c) how to train deep models for effective feature representation without huge human annotations. (d) how to improve the user engagement by considering the quality of the content. We take advantage of large image collection of Alibaba and state-of-the-art deep learning techniques to perform visual search at scale. We present solutions and implementation details to overcome those problems and also share our learnings from building such a large scale commercial visual search engine. Specifically, model and search-based fusion approach is introduced to effectively predict categories. Also, we propose a deep CNN model for joint detection and feature learning by mining user click behavior. The binary index engine is designed to scale up indexing without compromising recall and precision. Finally, we apply all the stages into an end-to-end system architecture, which can simultaneously achieve highly efficient and scalable performance adapting to real-shot images. Extensive experiments demonstrate the advancement of each module in our system. We hope visual search at Alibaba becomes more widely incorporated into today's commercial applications.


翻译:本文介绍Alibaba的大规模视觉搜索算法和系统基础设施。以下挑战将在Alibaba的电子商业环境下讨论:(a) 如何处理各种图像数据,弥合用户查询和在线图像实际图像之间的差距;(b) 如何处理大规模更新数据的大规模指数化问题;(c) 如何在没有大量人文说明的情况下,为有效特征表现培训深层次模型;(d) 如何通过考虑内容质量来提高用户参与程度。我们利用Alibaba的大型图像收集以及最先进的深层次学习技术进行大规模视觉搜索。我们提出解决方案和实施细节,以克服这些问题,并分享我们从建立如此大规模商业视觉搜索引擎中获得的学习。具体地说,采用模型和基于搜索的聚合方法来有效预测各类数据。此外,我们提出一个深层次CNN模型,用于联合检测和通过采矿用户点击行为进行特征学习。二进式索引引擎旨在扩大索引的编制,同时不损害记忆和精确性能。最后,我们将所有阶段应用到终端至终端系统架构中,通过大规模搜索模型,我们可以在今天实现最高效和可扩展的搜索模型。

1
下载
关闭预览

相关内容

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
专知会员服务
61+阅读 · 2020年3月19日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
LibRec 每周精选:近期推荐系统论文及进展
LibRec智能推荐
30+阅读 · 2018年2月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Arxiv
12+阅读 · 2020年6月20日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Arxiv
11+阅读 · 2019年4月15日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
13+阅读 · 2018年1月11日
VIP会员
相关VIP内容
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
专知会员服务
61+阅读 · 2020年3月19日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
LibRec 每周精选:近期推荐系统论文及进展
LibRec智能推荐
30+阅读 · 2018年2月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Top
微信扫码咨询专知VIP会员