Retrieval is a crucial stage in web search that identifies a small set of query-relevant candidates from a billion-scale corpus. Discovering more semantically-related candidates in the retrieval stage is very promising to expose more high-quality results to the end users. However, it still remains non-trivial challenges of building and deploying effective retrieval models for semantic matching in real search engine. In this paper, we describe the retrieval system that we developed and deployed in Baidu Search. The system exploits the recent state-of-the-art Chinese pretrained language model, namely Enhanced Representation through kNowledge IntEgration (ERNIE), which facilitates the system with expressive semantic matching. In particular, we developed an ERNIE-based retrieval model, which is equipped with 1) expressive Transformer-based semantic encoders, and 2) a comprehensive multi-stage training paradigm. More importantly, we present a practical system workflow for deploying the model in web-scale retrieval. Eventually, the system is fully deployed into production, where rigorous offline and online experiments were conducted. The results show that the system can perform high-quality candidate retrieval, especially for those tail queries with uncommon demands. Overall, the new retrieval system facilitated by pretrained language model (i.e., ERNIE) can largely improve the usability and applicability of our search engine.


翻译:在网络搜索中,检索是一个关键阶段,可以识别来自10亿级星体的少量与查询相关的候选人。在检索阶段发现更精密相关候选人非常有希望向终端用户披露更高质量的结果。然而,在实际搜索引擎中,建立和部署有效的语义匹配检索模型仍然是非三重挑战。在本文中,我们描述了我们在Baidu搜索中开发并部署的检索系统。这个系统利用了最新的最先进的中国预先培训语言模型,即通过 kNowledge IntEgration (ERNIE) 增强代表性,这为系统提供了表达语义匹配的便利。特别是,我们开发了以ERNIE为基础的检索模型,该模型配备了1) 表达式变异式的语义识别器,2 是一个全面的多阶段培训模型。更重要的是,我们为在网络规模检索中部署该模型提供了一个实用的系统工作流程。最后,该系统被完全安装在生产中,通过 kNowledgege Intregard(ERI) 。结果显示,系统可以进行高品质的候选人检索,特别是高质量的候选人检索。

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年8月19日
NLPCC 2020《预训练语言模型回顾》讲义下载,156页PPT
专知会员服务
47+阅读 · 2020年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Arxiv
0+阅读 · 2021年8月29日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
专知会员服务
15+阅读 · 2021年8月19日
NLPCC 2020《预训练语言模型回顾》讲义下载,156页PPT
专知会员服务
47+阅读 · 2020年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Top
微信扫码咨询专知VIP会员