Search engine has become a fundamental component in various web and mobile applications. Retrieving relevant documents from the massive datasets is challenging for a search engine system, especially when faced with verbose or tail queries. In this paper, we explore a vector space search framework for document retrieval. Specifically, we trained a deep semantic matching model so that each query and document can be encoded as a low dimensional embedding. Our model was trained based on BERT architecture. We deployed a fast k-nearest-neighbor index service for online serving. Both offline and online metrics demonstrate that our method improved retrieval performance and search quality considerably, particularly for tail


翻译:搜索引擎已成为各种网络和移动应用程序的基本组成部分。从大型数据集中获取相关文件对搜索引擎系统来说是一项挑战性的工作,特别是当遇到verbose或尾部查询时。在本文件中,我们探索了一个用于文件检索的矢量空间搜索框架。具体地说,我们训练了一个深层次的语义匹配模型,以便每个查询和文件都能够以低维嵌入方式编码。我们的模型是建立在 BERT 结构基础上的培训。我们为在线服务安装了一个快速的 k- nearest- nearbearbor 索引服务。 离线和在线测量都表明,我们的方法大大改进了检索性能和搜索质量,特别是对尾部而言。

16
下载
关闭预览

相关内容

《工程》是中国工程院(CAE)于2015年推出的国际开放存取期刊。其目的是提供一个高水平的平台,传播和分享工程研发的前沿进展、当前主要研究成果和关键成果;报告工程科学的进展,讨论工程发展的热点、兴趣领域、挑战和前景,在工程中考虑人与环境的福祉和伦理道德,鼓励具有深远经济和社会意义的工程突破和创新,使之达到国际先进水平,成为新的生产力,从而改变世界,造福人类,创造新的未来。 期刊链接:https://www.sciencedirect.com/journal/engineering
专知会员服务
123+阅读 · 2020年9月8日
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
Top
微信扫码咨询专知VIP会员